Programmēšana

Kaggle: Kur datu zinātnieki mācās un sacenšas

Datu zinātne, neskatoties uz nosaukumu, parasti ir vairāk māksla nekā zinātne. Jūs sākat ar netīriem datiem un vecu statistikas prognozēšanas modeli un mēģināt labāk rīkoties ar mašīnmācīšanos. Neviens nepārbauda jūsu darbu un nemēģina to uzlabot: Ja jūsu jaunais modelis der labāk nekā vecais, jūs to pieņemat un pāriet pie nākamās problēmas. Kad dati sāk dreifēt un modelis vairs nedarbojas, jūs atjaunināt modeli no jaunās datu kopas.

Datu zinātnes veikšana Kagglā ir pavisam citāda. Kaggle ir tiešsaistes mašīnmācīšanās vide un kopiena. Tajā ir standarta datu kopas, kuras simtiem vai tūkstošiem cilvēku vai komandu mēģina modelēt, un katrai sacensībai ir līderu saraksts. Daudzi konkursi piedāvā naudas balvas un statusa punktus, un cilvēki var uzlabot savus modeļus līdz konkursa beigām, lai uzlabotu savus rezultātus un kāpt pa kāpnēm. Mazie procenti bieži vien padara atšķirību starp uzvarētājiem un vicečempioniem.

Kaggle ir kaut kas tāds, ar ko profesionāli datu zinātnieki var spēlēties brīvajā laikā, un topošie dati, kurus zinātnieki var izmantot, lai uzzinātu, kā izveidot labus mašīnmācīšanās modeļus.

Kas ir Kaggle?

Raugoties visaptverošāk, Kaggle ir tiešsaistes zinātnieku kopiena, kas piedāvā mašīnmācīšanās sacensības, datu kopas, piezīmju grāmatiņas, piekļuvi apmācības paātrinātājiem un izglītību. Entonijs Goldblūms (izpilddirektors) un Bens Hamners (CTO) dibināja Kaggle 2010. gadā, un Google uzņēmumu iegādājās 2017. gadā.

Kaggle sacensības ir uzlabojušas mašīnmācīšanās stāvokli vairākās jomās. Viens ir tumšās vielas kartēšana; vēl viena ir HIV / AIDS izpēte. Aplūkojot Kaggle konkursu uzvarētājus, jūs redzēsiet daudz XGBoost modeļu, dažus Random Forest modeļus un dažus dziļus neironu tīklus.

Kaggle sacensības

Kaggle sacensībās ir piecas kategorijas: Darba sākšana, Spēļu laukums, Piedāvātie, Pētījumi un Darbā pieņemšana.

Getting Started sacensības ir daļēji pastāvīgas, un tās ir domātas jauniem lietotājiem, kas mašīnmācīšanās jomā vienkārši ielaužas kājās. Viņi nepiedāvā balvas vai punktus, taču viņiem ir pietiekami daudz apmācību. Sākuma sacensībām ir divu mēnešu ritošie līderu saraksti.

Spēļu laukuma sacensības ir viens solis virs grūtībām Sāciet darbu. Balvas svārstās no slavas līdz mazām naudas balvām.

Piedāvātie konkursi ir pilna mēroga mašīnmācīšanās izaicinājumi, kas rada sarežģītas prognozēšanas problēmas, parasti ar komerciālu nolūku. Piedāvātie konkursi piesaista dažus no visbriesmīgākajiem ekspertiem un komandām, kā arī piedāvā balvu fondus, kuru vērtība var sasniegt miljonu dolāru. Tas varētu izklausīties atturīgi, taču, pat ja jūs neiegūstat kādu no šiem, jūs mācīsities, mēģinot un lasot citu cilvēku risinājumus, jo īpaši augstāk vērtētos risinājumus.

Pētniecības konkursos ir iesaistītas problēmas, kas ir eksperimentālākas nekā konkurences problēmas. To eksperimentālā rakstura dēļ viņi parasti nepiedāvā balvas vai punktus.

Personāla atlases konkursos cilvēki sacenšas, lai izveidotu mašīnmācīšanās modeļus korporāciju kurētajiem izaicinājumiem. Sacensību noslēgumā ieinteresētie dalībnieki var augšupielādēt savu CV, lai uzņēmējs to apsvērtu. Balva ir (potenciāli) darba intervija uzņēmumā vai organizācijā, kas rīko konkursu.

Sacensībām ir vairāki formāti. Standarta Kaggle sacensībās lietotāji var piekļūt visām datu kopām konkursa sākumā, lejupielādēt datus, veidot modeļus uz datiem lokāli vai Kaggle piezīmjdatoros (skatīt zemāk), ģenerēt prognožu failu, pēc tam augšupielādēt prognozes kā iesniegumu uz Kaggle. Lielākā daļa Kaggle sacensību notiek pēc šī formāta, taču ir arī alternatīvas. Dažas sacensības ir sadalītas posmos. Daži ir kodu konkursi, kas jāiesniedz no Kaggle piezīmju grāmatiņas.

Kaggle datu kopas

Kaggle mitina vairāk nekā 35 tūkstošus datu kopu. Tie ir dažādos publikāciju formātos, tostarp ar komatiem atdalītas vērtības (CSV) tabulas datiem, JSON kokiem līdzīgiem datiem, SQLite datu bāzes, ZIP un 7z arhīvi (bieži izmanto attēlu datu kopām) un BigQuery datu kopas, kas ir vairākas -terabaitu SQL datu kopas, kas mitinātas Google serveros.

Ir vairāki veidi, kā atrast Kaggle datu kopas. Kaggle mājas lapā atradīsit “karsto” datu kopu un datu kopu sarakstu, kuras augšupielādējuši cilvēki, kuriem sekojat. Kaggle datu kopu lapā atradīsit datu kopu sarakstu (sākotnēji sakārtotu pēc “karstākie”, bet ar citām pasūtīšanas opcijām) un meklēšanas filtru. Varat arī izmantot tagus un tagu lapas, lai atrastu datu kopas, piemēram, //www.kaggle.com/tags/crime.

Vietējā datorā, vietrāžos URL, GitHub krātuvēs un Kaggle piezīmju grāmatiņas izvadēs varat izveidot publiskas un privātas datu kopas vietnē Kaggle. Jūs varat iestatīt datu kopu, kas izveidota no URL vai GitHub krātuves, lai periodiski atjauninātu.

Pašlaik Kaggle ir diezgan daudz COVID-19 datu kopu, izaicinājumu un piezīmju grāmatiņu. Jau ir bijuši vairāki sabiedrības ieguldījumi centienos izprast šo slimību un vīrusu, kas to izraisa.

Kaggle piezīmjdatori

Kaggle atbalsta trīs veidu piezīmjdatorus: skriptus, RMarkdown skriptus un Jupyter piezīmjdatorus. Skripti ir faili, kas visu izpilda kā kodu secīgi. Jūs varat rakstīt piezīmjdatorus R vai Python. R kodētāji un cilvēki, kas iesniedz kodu sacensībām, bieži izmanto skriptus; Python kodētāji un cilvēki, kas veic izpētes datu analīzi, parasti dod priekšroku Jupyter piezīmjdatoriem.

Jebkuras joslas piezīmjdatoros pēc izvēles var būt bezmaksas GPU (Nvidia Tesla P100) vai TPU akseleratori, un tie var izmantot Google Cloud Platform pakalpojumus, taču ir noteiktas kvotas, piemēram, 30 stundas GPU un 30 stundas TPU nedēļā. Būtībā piezīmjdatorā neizmantojiet GPU vai TPU, ja vien jums nav jāpaātrina dziļas mācības. Izmantojot Google Cloud Platform pakalpojumus, var tikt iekasēta maksa no jūsu Google Cloud Platform konta, ja pārsniedzat bezmaksas līmeņa atļaujas.

Kaggle piezīmjdatoriem jebkurā laikā varat pievienot Kaggle datu kopas. Varat arī pievienot sacensību datu kopas, bet tikai tad, ja piekrītat sacensību noteikumiem. Ja vēlaties, varat saslēgt piezīmjdatorus, pievienojot vienas piezīmjdatora izvadi citas piezīmju grāmatiņas datiem.

Piezīmju grāmatiņas darbojas kodolos, kas būtībā ir Docker konteineri. Varat saglabāt piezīmjdatoru versijas, kad tās izstrādājat.

Jūs varat meklēt piezīmjdatorus, izmantojot vietnes atslēgvārdu vaicājumu un filtru piezīmjdatoros, vai pārlūkojot Kaggle sākumlapu. Varat arī izmantot piezīmju grāmatiņu sarakstu; tāpat kā datu kopas, piezīmju grāmatiņu secība pēc noklusējuma ir “karstums”. Publisko piezīmju grāmatiņu lasīšana ir labs veids, kā uzzināt, kā cilvēki veic datu zinātni.

Jūs varat sadarboties ar citiem piezīmjdatorā dažādos veidos, atkarībā no tā, vai piezīmju grāmatiņa ir publiska vai privāta. Ja tas ir publisks, varat piešķirt rediģēšanas privilēģijas konkrētiem lietotājiem (visi var skatīt). Ja tas ir privāts, varat piešķirt skatīšanas vai rediģēšanas privilēģijas.

Kaggle publiskā API

Papildus interaktīvo piezīmju grāmatiņu izveidošanai un palaišanai, jūs varat mijiedarboties ar Kaggle, izmantojot vietējās mašīnas komandrindu Kaggle, kas izsauc Kaggle publisko API. Kaggle CLI var instalēt, izmantojot Python 3 instalēšanas programmu pip, un autentificējiet savu mašīnu, lejupielādējot API marķieri no vietnes Kaggle.

Kaggle CLI un API var mijiedarboties ar sacensībām, datu kopām un piezīmjdatoriem (kodoliem). API ir atvērtā koda un mitināta vietnē GitHub vietnē //github.com/Kaggle/kaggle-api. README fails nodrošina pilnu komandrindas rīka dokumentāciju.

Kaggle kopiena un izglītība

Kaggle rīko kopienas diskusiju forumus un mikrokursus. Foruma tēmas ietver pašu Kaggle, darba sākšanu, atsauksmes, jautājumus un atbildes, datu kopas un mikrokursus. Mikrokursos dažu stundu laikā tiek apgūtas prasmes, kas saistītas ar zinātniekiem: Python, mašīnmācīšanās, datu vizualizācija, pandas, funkciju inženierija, padziļināta mācīšanās, SQL, ģeotelpiskā analīze un tā tālāk.

Kopumā Kaggle ir ļoti noderīgs, lai apgūtu datu zinātni un sacenstos ar citiem par datu zinātnes izaicinājumiem. Tas ir arī ļoti noderīgs kā standarta publisko datu kopu krātuve. Tomēr tas neaizstāj apmaksātus mākoņdatu zinātnes pakalpojumus vai pašu veiktu analīzi.

$config[zx-auto] not found$config[zx-overlay] not found