Programmēšana

Skaidrota daļēji uzraudzīta mācīšanās

Savā 2017. gada Amazon akcionāru vēstulē Džefs Bezoss uzrakstīja kaut ko interesantu par Alexu, Amazon balss vadīto inteliģento palīgu:

ASV, Lielbritānijā un Vācijā pēdējo 12 mēnešu laikā esam uzlabojuši Alexa sarunvalodas izpratni par vairāk nekā 25%, uzlabojot Alexa mašīnmācīšanās komponentus un izmantojot daļēji uzraudzītas mācīšanās metodes. (Šīs daļēji uzraudzītās mācību metodes 40 reizes samazināja nepieciešamo iezīmēto datu daudzumu, lai sasniegtu tādu pašu precizitātes uzlabojumu!)

Ņemot vērā šos rezultātus, varētu būt interesanti izmēģināt daļēji uzraudzītu mācīšanos par mūsu pašu klasifikācijas problēmām. Bet kas ir daļēji uzraudzīta mācīšanās? Kādas ir tā priekšrocības un trūkumi? Kā mēs to varam izmantot?

Kas ir daļēji uzraudzīta mācīšanās?

Kā jūs varētu sagaidīt no nosaukuma, daļēji uzraudzīta mācīšanās notiek starp uzraudzītu mācīšanos un bez uzraudzības. Uzraudzītā mācīšanās sākas ar apmācības datiem, kas ir atzīmēti ar pareizām atbildēm (mērķa vērtībām). Pēc mācību procesa jūs izvēlaties modeli ar noregulētu svaru kopu, kas var paredzēt atbildes uz līdzīgiem datiem, kas vēl nav atzīmēti.

Daļēji uzraudzītajā mācībā tiek izmantoti gan atzīmēti, gan nepievienoti dati, lai tie atbilstu modelim. Dažos gadījumos, piemēram, Alexa, nepievienotu datu pievienošana faktiski uzlabo modeļa precizitāti. Citos gadījumos nepiezīmētie dati var padarīt modeli sliktāku; Dažādiem algoritmiem ir ievainojamība pret dažādām datu īpašībām, kā es to apspriedīšu tālāk.

Kopumā datu marķēšana maksā naudu un prasa laiku. Tas tā nav vienmēr problēma, jo dažām datu kopām jau ir tagi. Bet, ja jums ir daudz datu, no kuriem tikai daži ir atzīmēti, tad daļēji uzraudzīta mācīšanās ir laba tehnika, kuru izmēģināt.

Daļēji uzraudzīti mācību algoritmi

Daļēji uzraudzīta mācīšanās ilgst vismaz 15 gadus, iespējams, vairāk; Džerijs Džu no Viskonsinas universitātes 2005. gadā uzrakstīja literatūras pētījumu. Daļēji uzraudzīta mācīšanās pēdējos gados ir atjaunojusies ne tikai Amazon, jo tā samazina kļūdu līmeni svarīgos kritērijos.

Sebastians Ruders no DeepMind 2018. gada aprīlī rakstīja emuāra ziņojumu par dažiem daļēji uzraudzītiem mācību algoritmiem, par tiem, kas veido starpniekserveri. Tie ietver sevis apmācību, vairāku skatu mācīšanos un sevis komplektēšanu.

Pašapmācība izmanto paša modeļa prognozes par nemarķētiem datiem, lai pievienotu iezīmētajai datu kopai. Jūs būtībā iestatāt kādu prognozes ticamības līmeņa slieksni, bieži vien 0,5 vai augstāku, virs kura ticat prognozei un pievienojat to iezīmētajai datu kopai. Jūs turpināt pārkvalificēt modeli, līdz vairs nav pārliecinošu prognožu.

Tas liek jautāt par faktisko modeli, kas jāizmanto apmācībai. Tāpat kā lielākajā daļā mašīnmācīšanās, jūs, iespējams, vēlaties izmēģināt visus saprātīgos kandidātu modeļus, cerot atrast tādu, kas darbojas labi.

Pašmācībai ir bijuši dažādi panākumi. Lielākais trūkums ir tas, ka modelis nespēj labot savas kļūdas: viena, ļoti uzticama (bet nepareiza) prognoze par, teiksim, nepiedienīgu, var sabojāt visu modeli.

Vairāku skatu apmācība apmāca dažādus modeļus dažādos datu skatījumos, kas var ietvert dažādas funkciju kopas, dažādas modeļa arhitektūras vai dažādas datu apakškopas. Ir vairāki vairāku skatu apmācības algoritmi, taču viens no pazīstamākajiem ir trīs treniņi. Būtībā jūs izveidojat trīs dažādus modeļus; katru reizi, kad divi modeļi vienojas par datu punkta etiķeti, šī etiķete tiek pievienota trešajam modelim. Tāpat kā pašmācības gadījumā, jūs pārtraucat, kad nevienam no modeļiem vairs netiek pievienotas uzlīmes.

Pašsamontēšanā parasti tiek izmantots viens modelis ar vairākām dažādām konfigurācijām. Kāpņu tīkla metodē tīra piemēra prognoze tiek izmantota kā nejauši satraukta piemēra starpniekserveris, lai attīstītu trokšņa izturīgas funkcijas.

Džerija Džu 2007. gada apmācībā tiek aplūkoti arī vairāki citi algoritmi. Tie ietver ģeneratīvos modeļus (piemēram, tos, kas katrai klasei pieņem Gausa sadalījumu), daļēji uzraudzītas atbalsta vektoru mašīnas un uz grafikiem balstītus algoritmus.

Daļēji uzraudzīta mācīšanās mākonī

Daļēji uzraudzīta mācīšanās pamazām iekļūst mašīnmācības pakalpojumu pamatplūsmā. Piemēram, Amazon SageMaker Ground Truth izmanto Amazon Mechanical Turk attēlu kopas manuālai marķēšanai un robežu noteikšanai un izmanto neironu tīkla apmācību, lai marķētu pārējo attēlu kopu.

Līdzīgas daļēji uzraudzītas mācību shēmas var izmantot cita veida daļēji uzraudzītām mācībām, tostarp dabiskās valodas apstrādei, klasifikācijai un vairāku pakalpojumu regresijai. Tomēr lielākajā daļā no tiem jums būs jāraksta savs līmes kods daļēji uzraudzītajam algoritmam.

Lasiet vairāk par mašīnmācīšanos:

  • Mašīnmācība paskaidrota
  • Dziļa mācīšanās paskaidrota
  • Skaidrota dabiskās valodas apstrāde
  • Vadīta mācīšanās paskaidrota
  • Nepamatota mācīšanās ir izskaidrota
  • Skaidrota daļēji uzraudzīta mācīšanās
  • Skaidrota mācīšanās par pastiprināšanu
  • Tiek izskaidrota automatizēta mašīnmācīšanās vai AutoML
  • AI, mašīnmācīšanās un dziļa mācīšanās: viss, kas jums jāzina
  • Labākās mašīnmācīšanās un padziļinātas mācīšanās sistēmas
  • 6 veidi, kā padarīt mašīnmācīšanos neveiksmīgu
  • Mašīnmācības nodarbības: 5 uzņēmumi dalās savās kļūdās
  • Labākā atvērtā pirmkoda programmatūra mašīnmācībai
  • Piecas labākās programmēšanas valodas AI izstrādei
$config[zx-auto] not found$config[zx-overlay] not found