Kā izvēlēties mākoņa mašīnas mācību platformu

Lai izveidotu efektīvus mašīnmācīšanās un padziļinātas mācīšanās modeļus, jums ir nepieciešams liels datu daudzums, veids, kā tīrīt datus un veikt to funkciju inženieriju, kā arī veids, kā saprātīgā laika posmā apmācīt savus datus. Tad jums ir nepieciešams veids, kā izvietot savus modeļus, uzraudzīt, vai tie laika gaitā nav mainījušies, un pēc vajadzības pārkvalificēt tos.

Visu šo darbību varat veikt uz vietas, ja esat ieguldījis skaitļošanas resursos un paātrinātājos, piemēram, GPU, taču, iespējams, atklāsiet, ka, ja jūsu resursi ir atbilstoši, viņi arī lielāko daļu laika ir dīkstāvē. No otras puses, dažreiz var būt rentablāk visu cauruļvadu vadīt mākonī, pēc vajadzības izmantojot lielu daudzumu skaitļošanas resursu un paātrinātāju, un pēc tam tos atbrīvojot.

Tech Spotlight: AI un mašīnmācīšanās

5 mašīnmācīšanās veiksmes stāsti: iekšējais izskats (CIO)
AI darbā: Jūsu nākamais līdzstrādnieks varētu būt algoritms (Computerworld)
Cik droši ir jūsu AI un mašīnmācīšanās projekti? (CSO)
Kā izvēlēties mākoņa mašīnu mācību platformu ()
Kā AI var izveidot pašpiedziņas datu centrus (Network World)

Lielākie mākoņu nodrošinātāji - un arī nelieli mākoņi - ir pielikuši ievērojamas pūles, lai izveidotu savas mašīnmācīšanās platformas, lai atbalstītu pilnu mašīnmācīšanās dzīves ciklu, sākot no projekta plānošanas līdz modeļa uzturēšanai ražošanā. Kā noteikt, kurš no šiem mākoņiem atbildīs jūsu vajadzībām? Šeit ir 12 iespējas, kas jānodrošina katrai gala gala mašīnmācīšanās platformai.

Esiet tuvu saviem datiem

Ja jums ir liels datu apjoms, kas nepieciešams precīzu modeļu izveidošanai, jūs nevēlaties tos nosūtīt pa visu pasauli. Šeit jautājums nav par attālumu, bet ir laiks: datu pārraides ātrumu galu galā ierobežo gaismas ātrums pat ideālā tīklā ar bezgalīgu joslas platumu. Lieli attālumi nozīmē latentumu.

Ideāls gadījums ļoti lielām datu kopām ir tāda modeļa izveide, kurā dati jau atrodas, tā ka nav nepieciešama masveida datu pārraide. Vairākas datubāzes to atbalsta ierobežotā mērā.

Nākamais labākais gadījums ir tas, ka dati atrodas tajā pašā ātrgaitas tīklā, kur modeļa veidošanas programmatūra, kas parasti nozīmē to pašu datu centru. Pat datu pārvietošana no viena datu centra uz citu mākoņa pieejamības zonā var izraisīt ievērojamu kavēšanos, ja jums ir terabaiti (TB) vai vairāk. To var mazināt, veicot pakāpeniskus atjauninājumus.

Sliktākais gadījums būtu, ja jums būtu jāpārvieto lieli dati lielos attālumos pa ceļiem ar ierobežotu joslas platumu un lielu latentumu. Šajā ziņā īpaši nopietni ir transklusā okeāna kabeļi, kas ved uz Austrāliju.

Atbalstiet ETL vai ELT cauruļvadu

ETL (eksportēt, pārveidot un ielādēt) un ELT (eksportēt, ielādēt un pārveidot) ir divas datu cauruļvadu konfigurācijas, kas ir izplatītas datubāzu pasaulē. Mašīnmācība un padziļināta mācīšanās pastiprina vajadzību pēc tām, īpaši pārveidošanas daļu. ELT dod jums lielāku elastību, kad ir jāmaina transformācijas, jo lielo datu apstrāde parasti ir laikietilpīgākā.

Kopumā dati savvaļā ir trokšņaini. Tas jāfiltrē. Turklāt dabā esošajiem datiem ir dažādi diapazoni: vienam mainīgajam var būt maksimums miljonos, bet citam diapazons no -0,1 līdz -0,001. Lai mašīnmācītos, mainīgie ir jāpārveido standartizētos diapazonos, lai modeļa vidū dominētu tie, kuriem ir lieli diapazoni. Kurš standartizētais diapazons ir tieši atkarīgs no modelim izmantotā algoritma.

Atbalstīt tiešsaistes vidi modeļu veidošanai

Parastā gudrība bija tāda, ka, lai izveidotu modeli, dati jāimportē uz darbvirsmas. Liels datu daudzums, kas nepieciešams, lai izveidotu labas mašīnmācīšanās un padziļinātas mācīšanās modeļus, maina attēlu: nelielu daudzumu datu parauga var lejupielādēt uz darbvirsmas, lai veiktu izpētes datu analīzi un modeļu izveidi, bet ražošanas modeļiem jums ir jābūt piekļuvei dati.

Tīmekļa bāzes izstrādes vide, piemēram, Jupyter Notebooks, JupyterLab un Apache Zeppelin, ir labi piemērota modeļu veidošanai. Ja jūsu dati atrodas tajā pašā mākonī, kurā atrodas piezīmjdatora vide, analīzi varat novirzīt uz datiem, samazinot laikietilpīgo datu kustību.

Atbalstiet palielināšanas un paplašināšanas apmācību

Piezīmjdatoru aprēķināšanas un atmiņas prasības parasti ir minimālas, izņemot mācību modeļus. Ļoti palīdz, ja piezīmju grāmatiņa var radīt apmācības darbus, kas darbojas ar vairākām lielām virtuālām mašīnām vai konteineriem. Tas arī ļoti palīdz, ja apmācība var piekļūt tādiem paātrinātājiem kā GPU, TPU un FPGA; tas var pārvērst apmācību dienas stundās.

Atbalsta AutoML un automātisko funkciju projektēšanu

Ne visiem ir labi izvēlēties mašīnmācīšanās modeļus, izvēlēties iezīmes (mainīgos, kurus modelis izmanto), un izstrādāt jaunas iespējas no neapstrādātiem novērojumiem. Pat ja jūs labi veicat šos uzdevumus, tie ir laikietilpīgi, un tos var lielā mērā automatizēt.

AutoML sistēmas bieži izmēģina daudzus modeļus, lai noskaidrotu, kuru mērķa funkciju vērtības ir vislabākās, piemēram, regresijas problēmu minimālā kvadrāta kļūda. Labākās AutoML sistēmas var veikt arī funkciju inženieriju un efektīvi izmantot savus resursus, lai izstrādātu labākos iespējamos modeļus ar vislabākajiem iespējamajiem funkciju kopumiem.

Atbalstiet labākās mašīnmācīšanās un padziļinātas mācīšanās sistēmas

Lielākajai daļai datu zinātnieku ir iecienītākās sistēmas un programmēšanas valodas mašīnmācībai un padziļinātai mācībai. Tiem, kas dod priekšroku Python, Scikit-learn bieži ir iecienīta mašīnmācīšanās, savukārt TensorFlow, PyTorch, Keras un MXNet bieži ir labākās padziļinātas mācīšanās iespējas. Skalā mašīnmācībai mēdz dot priekšroku Spark MLlib. R valodā ir daudz vietējo mašīnmācīšanās pakotņu un labs interfeiss Python. Java valodā H2O.ai vērtējums ir augsts, tāpat kā Java-ML un Deep Java bibliotēka.

Mākoņu mašīnu un dziļu mācību platformām parasti ir sava algoritmu kolekcija, un tās bieži atbalsta ārējos ietvarus vismaz vienā valodā vai kā konteinerus ar noteiktiem ieejas punktiem. Dažos gadījumos jūs varat integrēt savus algoritmus un statistikas metodes ar platformas AutoML iespējām, kas ir diezgan ērti.

Dažas mākoņu platformas piedāvā arī savas pielāgotās galveno dziļāko mācību sistēmu versijas. Piemēram, AWS ir optimizēta TensorFlow versija, kas, pēc tās domām, var sasniegt gandrīz lineāru mērogojamību dziļa neironu tīkla apmācībai.

Piedāvājiet iepriekš apmācītus modeļus un atbalstiet pārneses mācīšanos

Ne visi vēlas tērēt laiku un aprēķināt resursus, lai apmācītu savus modeļus - to nevajadzētu darīt arī tad, ja ir pieejami iepriekš apmācīti modeļi. Piemēram, ImageNet datu kopa ir milzīga, un mūsdienīga dziļa neironu tīkla apmācība pret to var ilgt vairākas nedēļas, tāpēc ir jēga tam izmantot iepriekš apmācītu modeli, kad vien iespējams.

No otras puses, iepriekš apmācīti modeļi ne vienmēr var identificēt objektus, kas jums rūp. Mācīšanās ar pārsūtīšanu var palīdzēt pielāgot pēdējos dažus neironu tīkla slāņus savai konkrētajai datu kopai, neizmantojot laiku un izmaksas visa tīkla apmācībai.

Piedāvājiet noregulētus AI pakalpojumus

Galvenās mākoņu platformas piedāvā spēcīgus, pielāgotus AI pakalpojumus daudzām lietojumprogrammām, ne tikai attēlu identificēšanai. Piemērs ietver valodas tulkošanu, runu uz tekstu, tekstu uz runu, prognozēšanu un ieteikumus.

Šie pakalpojumi jau ir apmācīti un pārbaudīti, izmantojot vairāk datu, nekā tas parasti ir pieejams uzņēmumiem. Tie jau ir izvietoti arī pakalpojumu galapunktos ar pietiekamiem skaitļošanas resursiem, ieskaitot paātrinātājus, lai nodrošinātu labu reakcijas laiku visā pasaulē.

Pārvaldiet savus eksperimentus

Vienīgais veids, kā atrast vislabāko datu kopas modeli, ir izmēģināt visu, vai nu manuāli, vai izmantojot AutoML. Tas atstāj vēl vienu problēmu: eksperimentu pārvaldīšana.

Labai mākoņu mašīnu apmācības platformai būs veids, kā jūs varat redzēt un salīdzināt katra eksperimenta mērķa funkciju vērtības gan apmācību kopām, gan testa datiem, kā arī modeļa lielumu un sajaukšanas matricu. Spēja visu to uzzīmēt ir noteikts plus.

Atbalsta modeļa izvietošanu prognozēšanai

Kad jums ir veids, kā izvēlēties labāko eksperimentu, ņemot vērā jūsu kritērijus, jums būs nepieciešams arī vienkāršs veids, kā izvietot modeli. Ja vienam mērķim izvietojat vairākus modeļus, jums būs nepieciešams arī veids, kā sadalīt datplūsmu starp tiem a / b testēšanai.

Uzraudzīt prognozēšanas veiktspēju

Diemžēl pasaule mēdz mainīties, un līdz ar to mainās arī dati. Tas nozīmē, ka jūs nevarat izvietot modeli un to aizmirst. Tā vietā jums laika gaitā jāuzrauga dati, kas iesniegti prognozēm. Kad dati sāk būtiski mainīties, salīdzinot ar sākotnējās apmācības datu kopas sākotnējo līmeni, jums būs jāpārkvalificē modelis.

Kontroles izmaksas

Visbeidzot, jums ir vajadzīgi veidi, kā kontrolēt modeļu izmaksas. Modeļu izmantošana, lai secinātu par ražošanu, bieži veido 90% no padziļinātas mācības izmaksām, savukārt apmācība - tikai 10% no izmaksām.

Labākais veids, kā kontrolēt prognozēšanas izmaksas, ir atkarīgs no slodzes un modeļa sarežģītības. Ja jums ir liela slodze, iespējams, varēsit izmantot paātrinātāju, lai nepieļautu vairāk virtuālās mašīnas gadījumu. Ja jums ir mainīga slodze, iespējams, varēsiet dinamiski mainīt izmēru vai gadījumu vai konteineru skaitu, kad krava iet uz augšu vai uz leju. Un, ja jums ir zema vai neregulāra slodze, jūs, iespējams, varēsiet izmantot ļoti mazu gadījumu ar daļēju paātrinātāju, lai apstrādātu prognozes.