Pārskats: Amazon SageMaker spēlē panākumus

Kad es 2018. gadā pārskatīju Amazon SageMaker, es atzīmēju, ka tas bija ļoti pielāgojams mašīnmācīšanās un padziļinātas apmācības pakalpojums, kas atbalsta 11 savus algoritmus, kā arī citus jūsu piedāvātos algoritmus. Hiperparametru optimizācija joprojām bija priekšskatījumā, un jums vajadzēja veikt savu ETL un funkciju inženieriju.

Kopš tā laika SageMaker darbības joma ir paplašinājusies, galveno piezīmju grāmatiņu paplašināšana ar IDE (SageMaker Studio) un automatizētu mašīnmācīšanos (SageMaker Autopilot) un kopējās ekosistēmas pievienošana virknei svarīgu pakalpojumu, kā parādīts zemāk redzamajā diagrammā. Šī ekosistēma atbalsta mašīnmācīšanos no sagatavošanās līdz modeļa veidošanai, apmācībai un pielāgošanai līdz izvietošanai un pārvaldībai - citiem vārdiem sakot, no gala līdz beigām.

Kas jauns SageMaker?

Kas jauns? Ņemot vērā to, ka pēdējo reizi apskatīju SageMaker tieši pēc tā izlaišanas, saraksts ir diezgan garš, bet sāksim ar visredzamākajiem pakalpojumiem.

SageMaker Studio, IDE, kuras pamatā ir JupyterLab
SageMaker Autopilot, kas automātiski izveido un apmāca līdz pat 50 iezīmju veidotus modeļus, kurus var pārbaudīt SageMaker Studio
SageMaker Ground Truth, kas palīdz veidot un pārvaldīt apmācību datu kopas
SageMaker piezīmjdatori tagad piedāvā elastīgu aprēķinu un koplietošanu ar vienu klikšķi
SageMaker Experiments, kas palīdz izstrādātājiem vizualizēt un salīdzināt mašīnmācīšanās modeļa atkārtojumus, apmācības parametrus un rezultātus
SageMaker atkļūdotājs, kas nodrošina reāllaika mašīnmācīšanās modeļu uzraudzību, lai uzlabotu paredzamo precizitāti, samazinātu apmācības laiku un veicinātu lielāku skaidrojumu
SageMaker modeļa monitors, kas nosaka koncepcijas novirzi, lai atklātu, kad ražošanā strādājoša modeļa veiktspēja sāk atšķirties no sākotnējā apmācītā modeļa

Citi ievērojami uzlabojumi ietver piezīmjdatoru izvēles vietas izmantošanu, lai samazinātu izmaksas; jauns P3dn.24xl instances tips, kurā ietilpst astoņi V100 GPU; AWS optimizēts TensorFlow ietvars, kas sasniedz gandrīz lineāru mērogojamību, apmācot vairāku veidu neironu tīklus; Amazon Elastic Inference, kas var dramatiski samazināt secināšanas izmaksas; AWS Inferentia, kas ir augstas veiktspējas mašīnmācīšanās secinājuma mikroshēma; un jauni algoritmi, kas iebūvēti SageMaker un ir pieejami AWS Marketplace. Turklāt SageMaker Neo apkopo dziļu mācību modeļus darbam ar vismodernākajām skaitļošanas ierīcēm, un SageMaker RL (nav parādīts diagrammā) nodrošina pārvaldītu pastiprināšanas mācību pakalpojumu.

SageMaker studija

JupyterLab ir nākamās paaudzes tīmekļa lietotāja saskarne Project Jupyter. SageMaker Studio izmanto JupyterLab kā pamatu IDE, kas ir vienota tiešsaistes mašīnmācīšanās un dziļas mācību darbstacija ar sadarbības funkcijām, eksperimentu pārvaldību, Git integrāciju un automātisku modeļu ģenerēšanu.

Zemāk redzamajā ekrānuzņēmumā parādīts, kā instalēt SageMaker piemērus SageMaker Studio instancē, izmantojot termināļa cilni un komandrindu Git. Norādījumi, kā to izdarīt, ir šī piemēra README, kas ir sava veida Catch-22. Tos var izlasīt, pārlūkojot GitHub piemēru Getting Started vai klonējot repozitoriju savā datorā un izlasot to tur.

Amazon piemērā Getting Started ir iekļauta piezīmju grāmatiņa ar nosaukumu xgboost_customer_churn_studio.ipynb, kas tika pielāgota no emuāra ziņas par klientu skaita prognozēšanu. Jupyter piezīmjdatoriem ejot, tam ir daudz paskaidrojumu, kā redzat zemāk esošajos ekrānuzņēmumos.

Piemērs turpina veikt papildu apmācību ar modificētu ārēju XGBoost algoritmu, lai saglabātu atkļūdošanas informāciju Amazon S3 un izmantotu trīs atkļūdošanas kārtulas. Tas ir tā sauktajā ietvaros režīmā, kas nozīmē, ka tas nav iebūvēts algoritms.

Kad visi treniņi ir pabeigti, rezultātus varat salīdzināt cilnē Eksperimenti.

Pēc tam piemērā tiek izmantots modelis, izmantojot tā modeli izvietot metodi un testē izvietoto galapunktu, izmantojot to paredzēt metodi. Visbeidzot, tas rada pamatdarbu ar apmācību datu kopu un ieplānotu uzraudzības darbu, kas ziņo par visiem ierobežojumu pārkāpumiem.

Starp citu, XGBoost ir tikai viens no daudzajiem algoritmiem, kas iebūvēti SageMaker. Pilns saraksts ir parādīts zemāk esošajā tabulā - un jūs vienmēr varat izveidot savu modeli.

SageMaker autopilots

Pieņemsim, ka jūs nezināt, kā veikt funkciju inženieriju, un jums nav pārāk labi zināmi dažādi algoritmi, kas pieejami dažādiem mašīnmācīšanās uzdevumiem. Jūs joprojām varat izmantot SageMaker - vienkārši ļaujiet tam darboties autopilotā. SageMaker Autopilot spēj apstrādāt datu kopas līdz 5 GB.

Zemāk redzamajā ekrānuzņēmumā mēs izmantojam tiešo mārketingu ar Amazon SageMaker Autopilot piemēru. Tas sākas ar datu lejupielādi, izpakošanu, augšupielādi S3 spainī un palaišanu Autopilot darbā, izsaucot API create_auto_ml_job. Tad mēs izsekojam darba progresu, jo tas analizē datus, veic funkciju inženieriju un veic modeļu pielāgošanu, kā parādīts zemāk.

Pēc tam piemērā tiek izvēlēts labākais modelis, tas tiek izmantots, lai izveidotu un mitinātu galapunktu, un tiek izpildīts pārveidošanas darbs, lai modeļa prognozes pievienotu testa datu kopijai. Visbeidzot, tā atrod abas piezīmju grāmatiņas, kuras izveidojis Autopilot darbs.

Autopilota rezultātiem ir lietotāja interfeiss, lai gan tas nav acīmredzams. Ja ar peles labo pogu noklikšķiniet uz automl eksperimenta, varat redzēt visus izmēģinājumus ar to mērķa vērtībām, kā parādīts zemāk.

SageMaker Zemes patiesība

Ja paveicas, visi jūsu dati tiks marķēti vai citādi anotēti, un būs gatavi lietošanai kā mācību datu kopa. Ja nē, jūs varat anotēt datus manuāli (standarta joks ir tas, ka jūs uzdodat uzdevumu saviem grādu audzēkņiem), vai arī varat izmantot daļēji uzraudzītu mācību procesu, kas apvieno cilvēku anotācijas ar automātiskām anotācijām. SageMaker Ground Truth ir šāds marķēšanas process.

Kā redzat zemāk redzamajā diagrammā, Zemes patiesību var piemērot vairākiem dažādiem uzdevumiem. Izmantojot pamatotu patiesību, varat izmantot darbiniekus no Amazon Mechanical Turk vai izvēlēta piegādātāja uzņēmuma, vai iekšēju privātu darbaspēku kopā ar mašīnmācīšanos, lai jūs varētu izveidot iezīmētu datu kopu.

Amazon piedāvā septiņus gājienus, kas parāda dažādus SageMaker zemes patiesības izmantošanas veidus.

SageMaker Neo

Vēl nesen apmācītu modeļu izvietošana malējās ierīcēs - piemēram, viedtālruņos un IoT ierīcēs - ir bijusi sarežģīta. Ir bijuši īpaši risinājumi, piemēram, TensorFlow Lite TensorFlow modeļiem un TensorRT Nvidia ierīcēm, taču SageMaker Neo apkopo un automātiski optimizē TensorFlow, Apache MXNet, PyTorch, ONNX un XGBoost modeļus izvietošanai ARM, Intel un Nvidia procesoros. kā Qualcomm, Cadence un Xilinx ierīces.

Saskaņā ar AWS, Neo var dubultot modeļu veiktspēju un samazināt tos tik daudz, lai darbotos malējās ierīcēs ar ierobežotu atmiņas daudzumu.

SageMaker secinājumu izvietošanas iespējas

Runājot par aprēķināšanu, uzglabāšanu, tīkla pārsūtīšanu utt., Ražošanas secinājumu modeļu ieviešana bieži veido 90 procentus no padziļinātas mācīšanās izmaksām, bet apmācība tikai 10 procentus no izmaksām. AWS piedāvā daudz veidu, kā samazināt secināšanas izmaksas.

Viens no tiem ir elastīgais secinājums. AWS saka, ka Elastīgais secinājums var paātrināt caurlaidspēju un samazināt reāllaika secinājumu iegūšanas latentumu no jūsu dziļās mācīšanās modeļiem, kas tiek izvietoti kā Amazon SageMaker mitinātie modeļi, taču par nelielu daļu no GPU instances izmantošanas jūsu galapunktā. Elastīgais secinājums paātrina secinājumu, ļaujot pievienot daļējus GPU jebkuram Amazon SageMaker gadījumam.

Elastic Inference tiek atbalstīts TensorFlow, Apache MXNet un PyTorch versijās, kurās iespējots elastīgums. Lai izmantotu jebkuru citu padziļinātu mācību sistēmu, eksportējiet savu modeli, izmantojot ONNX, un pēc tam importējiet modeli MXNet.

Ja jums nepieciešams vairāk nekā 32 TFLOPS paātrinātājam, ko varat iegūt no Elastic Inference, varat izmantot EC2 G4 eksemplārus, kuriem ir Nvidia T4 GPU, vai EC2 Inf1 gadījumus, kuriem ir pielāgotas paātrinātāja mikroshēmas AWS Inferentia. Ja jums nepieciešams Inferentia mikroshēmu ātrums, varat izmantot AWS Neuron SDK, lai apkopotu savu dziļās mācīšanās modeli Neuron izpildāmā faila formātā (NEFF), kuru savukārt Neuron izpildlaika draiveris ielādē, lai izpildītu secinājuma ievades pieprasījumus vietnē Inferentia mikroshēmas.

Šajā brīdī Amazon SageMaker Studio priekšskatījums ir pietiekami labs, lai to izmantotu pilnīgai mašīnmācībai un padziļinātai apmācībai: datu sagatavošanai, modeļu apmācībai, modeļu izvietošanai un modeļu uzraudzībai. Kaut arī lietotāja pieredze joprojām atstāj vēlamas dažas lietas, piemēram, labāk atklāt funkcionalitāti, Amazon SageMaker tagad ir konkurētspējīgs ar mašīnmācīšanās vidi, kas pieejama citos mākoņos.

—

Izmaksas: No 0,0464 līdz 34,272 USD par instances stundu aprēķināšanai atkarībā no CPU un GPU skaita; SSD krātuve: 0,14 USD par GB mēnesī; Datu pārsūtīšana: 0,016 USD par GB iekšā vai ārā.

Platforma: Hosted vietnē Amazon Web Services.