Programmēšana

7 rīki lielu datu pieradināšanai ar Hadoop

Plūdi, kas Taizemē izpostīja cieto disku nozari, tagad ir pusgadu veci, un cenas par terabaitu beidzot atkal krītas. Tas nozīmē, ka dati sāks krāties, un cilvēki ap biroju domās, ko ar tiem var darīt. Varbūt šajos žurnālfailos ir kāda atziņa? Varbūt mazliet statistiskās analīzes rezultātā tiks atrasti daži zelta gabali, kas aprakti visā šajā troksnī? Varbūt mēs varam atrast pietiekami daudz izmaiņu, kas apraktas šo failu dīvāna spilvenos, lai mēs visi varētu paaugstināt?

Nozarei tagad ir sauklis "lielie dati" par to, kā mēs kaut ko darīsim ar milzīgo informācijas daudzumu. "Lielie dati" aizstāj "biznesa inteliģenci", kas pakļāva "pārskatu sniegšanu", kas "izklājlapām" piešķīra labāku spīdumu, kas izsita vecmodīgās "izdrukas". Vadītāji, kas jau sen studējuši izdrukas, tagad pieņem darbā matemātiķus, kuri apgalvo, ka ir lielo datu speciālisti, lai palīdzētu viņiem atrisināt to pašu veco problēmu: ko pārdod un kāpēc?

[Arī: Enterprise Hadoop: atvieglota lielo datu apstrāde Izpētiet pašreizējās BI tendences un risinājumus, izmantojot interaktīvo biznesa inteliģences iGuide. | Atklājiet jaunumus biznesa lietojumprogrammās, izmantojot jaunumu biļetenu Technology: Applications. ]

Nav godīgi domāt, ka šie modinātājvārdi ir vienkārši viens otra aizstājēji. Lielie dati ir sarežģītāka pasaule, jo mērogs ir daudz lielāks. Informācija parasti tiek izplatīta vairākos serveros, un datu apkopošanas darbs ir jāsaskaņo starp tiem. Agrāk darbs lielā mērā tika deleģēts datu bāzes programmatūrai, kura tabulu sastādīšanai izmantos savu maģisko JOIN mehānismu, pēc tam kolonnas pievienos, pirms datu taisnstūra nodos atskaites programmatūrai, kas to pārlapos. Tas bieži bija grūtāk, nekā izklausās. Datu bāzu programmētāji var pastāstīt stāstus par sarežģītām JOIN komandām, kas stundām ilgi bloķētu viņu datu bāzi, jo tā mēģināja sagatavot ziņojumu priekšniekam, kurš tikai gribēja viņa slejas.

Spēle tagad ir daudz savādāka. Hadoop ir populārs rīks serveru plauktu un plauktu organizēšanai, un NoSQL datu bāzes ir populāri rīki datu glabāšanai šajos statīvos. Šis mehānisms var būt daudz jaudīgāks nekā vecā viena mašīna, taču tie nebūt nav tik slīpēti kā vecie datu bāzes serveri. Lai gan SQL var būt sarežģīts, JOIN vaicājuma rakstīšana SQL datu bāzēm bieži bija daudz vienkāršāka nekā informācijas apkopošana no desmitiem mašīnu un tās apkopošana vienā saskaņotā atbildē. Hadoop darbi ir rakstīti Java valodā, un tam ir nepieciešams cits sarežģītības līmenis. Rīki lielo datu novēršanai tikai sāk šo dalīto skaitļošanas jaudu pakot mazliet vieglāk lietojamā veidā.

Daudzi no lielo datu rīkiem strādā arī ar NoSQL datu krātuvēm. Tās ir elastīgākas nekā tradicionālās relāciju datu bāzes, taču elastība nav tik liela atkāpe no pagātnes kā Hadoop. NoSQL vaicājumi var būt vienkāršāki, jo datu bāzes noformējums attur no sarežģītās tabulas struktūras, kas nosaka sarežģītību darbā ar SQL. Galvenais uztraukums ir tāds, ka programmatūrai ir jāparedz iespēja, ka ne katrā rindā būs daži dati par katru kolonnu.

Vislielākais izaicinājums varētu būt cerību risināšana, ko radījusi galvenā kinofilma "Moneyball". Visi priekšnieki to ir redzējuši un uztvēruši ziņu, ka daža gudra statistika var pārvērst mazbudžeta komandu par Pasaules sērijas uzvarētāju. Neskatoties uz to, ka Oklendas vieglatlētika "Moneyball" laikmetā nekad nav uzvarējusi Pasaules sērijā. Tā ir Maikla Lūisa prozas burvība. Visi priekšnieki domā: "Varbūt, ja es varu iegūt labu statistiku, Holivuda nolīgst Bredu Pitu, kurš mani spēlētu filmas versijā."

Neviena no šajā kolekcijā esošajām programmatūrām ne tuvu nepievilina Bredu Pitu lūgt viņa pārstāvim jūsu Hadoop darba filmas versijas skripta kopiju. Tam jānāk no jums vai citiem cilvēkiem, kas strādā pie projekta. Datu izpratne un pareizā uzdotā jautājuma atrašana bieži vien ir daudz sarežģītāka nekā ātrs Hadoop darba palaišana. Tas tiešām kaut ko saka, jo šie rīki ir tikai puse no darba.

Lai iegūtu jomas solījumu šajā jomā, es lejupielādēju dažus lielo datu rīkus, sajaucu datus, pēc tam skatījos uz Einšteina pakāpes ieskatu atbildēm. Informācija tika iegūta no žurnāla failiem uz vietni, kurā tiek pārdotas dažas manas grāmatas (wayner.org), un es meklēju ideju par to, kas un kāpēc tika pārdots. Tāpēc es izpakoju programmatūru un uzdevu jautājumus.

 

Lielo datu rīki: Jaspersoft BI Suite

Jaspersoft pakete ir viens no atvērtā pirmkoda līderiem ziņojumu sagatavošanai no datu bāzes kolonnām. Programmatūra ir labi noslīpēta un jau ir instalēta daudzos uzņēmumos, SQL tabulas pārvēršot PDF failos, kurus sapulcēs var pārbaudīt ikviens.

Uzņēmums lec uz lielo datu vilcienu, un tas nozīmē, ka jāpievieno programmatūras slānis, lai tā ziņojumu ģenerēšanas programmatūru savienotu ar vietām, kur tiek glabāti lielie dati. Tagad JasperReports serveris piedāvā programmatūru, lai iesūktu datus no daudzām galvenajām krātuves platformām, tostarp MongoDB, Cassandra, Redis, Riak, CouchDB un Neo4j. Hadoop ir arī labi pārstāvēts, un JasperReports nodrošina Hive savienotāju, lai nokļūtu HBase iekšpusē.

Šīs pūles šķiet, ka tās joprojām tiek sāktas - daudzas dokumentācijas wiki lapas ir tukšas, un rīki nav pilnībā integrēti. Piemēram, vizuālo vaicājumu noformētājs vēl nedarbojas ar Kasandras CQL. Jums jāievada šie vaicājumi ar roku.

Kad iegūsit datus no šiem avotiem, Jaspersoft serveris tos apkopos līdz interaktīvām tabulām un diagrammām. Pārskati var būt diezgan sarežģīti interaktīvi rīki, kas ļauj jums izpētīt dažādus stūrus. Ja jums tas ir nepieciešams, varat lūgt vairāk un vairāk informācijas.

Tas ir labi attīstīts programmatūras pasaules stūris, un Jaspersoft paplašinās, atvieglojot šo sarežģīto pārskatu izmantošanu ar jaunākiem datu avotiem. Jaspersoft nepiedāvā īpaši jaunus datu aplūkošanas veidus, tikai sarežģītākus veidus, kā piekļūt jaunās vietās saglabātiem datiem. Man tas likās pārsteidzoši noderīgi. Manu datu apkopošana bija pietiekama, lai saprastu, kas apmeklē vietni un kad viņi tur dodas.

 

Lielo datu rīki: Pentaho Business Analytics

Pentaho ir vēl viena programmatūras platforma, kas sākās kā ziņojumu ģenerēšanas dzinējs; tas, tāpat kā JasperSoft, sazarojas lielos datos, atvieglojot informācijas absorbēšanu no jaunajiem avotiem. Jūs varat piesaistīt Pentaho rīku daudzām populārākajām NoSQL datu bāzēm, piemēram, MongoDB un Cassandra. Kad datu bāzes ir savienotas, varat vilkt un nomest kolonnas skatījumos un pārskatos tā, it kā informācija būtu iegūta no SQL datu bāzēm.

Es atklāju, ka klasiskās šķirošanas un sijāšanas tabulas ir ārkārtīgi noderīgas, lai saprastu, kurš manā vietnē pavadīja visvairāk laika. Vienkārši kārtojot žurnālfailos pēc IP adreses, atklājās, ko dara lielie lietotāji.

Pentaho nodrošina arī programmatūru HDFS failu un HBase datu iegūšanai no Hadoop kopām. Viens no intriģējošākajiem rīkiem ir grafiskā programmēšanas saskarne, kas pazīstama kā Kettle vai Pentaho datu integrācija. Tam ir virkne iebūvētu moduļu, kurus varat vilkt un nomest uz attēla, pēc tam tos savienot. Pentaho ir pilnībā integrējis Hadoop un citus avotus, tāpēc jūs varat uzrakstīt savu kodu un nosūtīt to izpildei klasterī.

 

Lielo datu rīki: Karmasphere Studio un Analyst

Daudzi no lielo datu rīkiem nesāka dzīvi kā ziņošanas rīki. Piemēram, Karmasphere Studio ir spraudņu komplekts, kas izveidots Eclipse augšpusē. Tas ir specializēts IDE, kas atvieglo Hadoop darba vietu izveidi un vadīšanu.

Kad sāku konfigurēt Hadoop darbu ar šo izstrādātāja rīku, man bija reta prieka sajūta. Hadoop darba dzīvē ir vairāki posmi, un Karmasphere rīki iziet cauri katram solim, parādot daļējus rezultātus. Es domāju, ka atkļūdotāji vienmēr ir ļāvuši mums ielūkoties mehānismā, kad tas veic savu darbu, bet Karmasphere Studio dara kaut ko mazliet labāku: iestatot darbplūsmu, rīki parāda testa datu stāvokli katrā solī. Jūs redzat, kā izskatīsies pagaidu dati, tos sadalot, analizējot un pēc tam samazinot.

Karmasphere izplata arī rīku ar nosaukumu Karmasphere Analyst, kas ir paredzēts, lai vienkāršotu visu Hadoop klastera datu aršanu. Tas ir aprīkots ar daudziem noderīgiem blokiem, lai ieprogrammētu labu Hadoop darbu, piemēram, apakšprogrammas ZIP failu žurnālu saspiešanai. Tad tas tos sasaista kopā un parametru stropu zvanus, lai izveidotu izejas tabulu lasīšanai.

 

Lielo datu rīki: Talend Open Studio

Talend piedāvā arī uz Eclipse balstītu IDE datu apstrādes darbu sasaistīšanai ar Hadoop. Tās rīki ir izstrādāti, lai palīdzētu datu integrācijā, datu kvalitātē un datu pārvaldībā, un visiem šiem darbiem ir pielāgotas apakšprogrammas.

Talend Studio ļauj jums izveidot savu darbu, velkot un nometot mazas ikonas uz audekla. Ja vēlaties iegūt RSS plūsmu, Talend komponents ielādēs RSS un vajadzības gadījumā pievienos starpniekserveri. Informācijas apkopošanai ir vairāki desmiti komponentu un vēl desmitiem citu, piemēram, "neskaidra spēle". Tad jūs varat izvadīt rezultātus.

Pēc tam, kad esat sajutis, ko komponenti faktiski dara un ko nedara, vizuāli var salikt blokus kopā. To man bija vieglāk saprast, kad sāku skatīties avota kodu, kas tiek samontēts aiz audekla. Talend ļauj jums to redzēt, un es domāju, ka tas ir ideāls kompromiss. Vizuālā programmēšana var šķist izcils mērķis, taču es atklāju, ka ikonas nekad nevar attēlot mehānismus pietiekami detalizēti, lai būtu iespējams saprast, kas notiek. Man vajag pirmkodu.

Talend uztur arī TalendForge - atvērtā koda paplašinājumu kolekciju, kas atvieglo darbu ar uzņēmuma produktiem. Šķiet, ka lielākā daļa rīku ir filtri vai bibliotēkas, kas saista Talend programmatūru ar citiem galvenajiem produktiem, piemēram, Salesforce.com un SugarCRM. Jūs varat sūkt informāciju no šīm sistēmām savos projektos, vienkāršojot integrāciju.

 

Lielo datu rīki: Skytree Server

Ne visi rīki ir paredzēti, lai atvieglotu koda virknes savienošanu ar vizuālajiem mehānismiem. Skytree piedāvā komplektu, kas izpilda daudzus sarežģītākus mašīnmācīšanās algoritmus. Viss, kas nepieciešams, ir pareizās komandas ierakstīšana komandrindā.

Skytree ir vairāk vērsts uz iekšām nekā uz spīdīgo GUI. Skytree Server ir optimizēts, lai jūsu datos palaistu vairākus klasiskus mašīnmācīšanās algoritmus, izmantojot uzņēmuma apgalvojumu, ka tā var būt 10 000 reizes ātrāka nekā citas paketes. Tas var meklēt, izmantojot jūsu datus, meklējot matemātiski līdzīgu vienību kopas, pēc tam to apgriezt, lai identificētu atšķirības, kas varētu būt problēmas, iespējas vai abi. Algoritmi var būt precīzāki nekā cilvēki, un tie var meklēt, izmantojot lielu datu daudzumu, meklējot ierakstus, kas ir mazliet neparasti. Tā var būt krāpšana vai īpaši labs klients, kurš tērēs un tērēs.

Bezmaksas programmatūras versija piedāvā tos pašus algoritmus kā patentētā versija, taču tā ir ierobežota ar datu kopām 100 000 rindās. Tam vajadzētu būt pietiekamam, lai noteiktu, vai programmatūra ir laba atbilstība.

 

Lielo datu rīki: galddators un serveris

Tableau Desktop ir vizualizācijas rīks, kas ļauj ērti apskatīt savus datus jaunos veidos, pēc tam tos sagriezt šķēlēs un apskatīt citādi. Jūs pat varat sajaukt datus ar citiem datiem un pārbaudīt tos vēl vienā gaismā. Rīks ir optimizēts, lai iegūtu visas datu kolonnas un ļautu tos sajaukt, pirms ievietojat vienā no desmitiem sniegto grafisko veidņu.

Tableau programmatūra sāka aptvert Hadoop pirms vairākām versijām, un tagad jūs varat izturēties pret Hadoop "tāpat kā jūs ar jebkuru datu savienojumu". Tableau paļaujas uz Hive, lai strukturētu vaicājumus, pēc tam cenšas saglabāt kešatmiņā tik daudz informācijas atmiņā, lai rīks būtu interaktīvs. Lai gan daudzi citi pārskatu veidošanas rīki ir balstīti uz pārskatu ģenerēšanas bezsaistē tradīciju, Tableau vēlas piedāvāt interaktīvu mehānismu, lai jūs varētu atkal un atkal sagriezt savus datus. Kešatmiņa palīdz tikt galā ar dažiem Hadoop klastera latentumiem.

Programmatūra ir labi noslīpēta un estētiski pievilcīga. Es bieži attapos atkārtoti pārdodot datus, lai tos redzētu vēl vienā diagrammā, kaut arī nebija daudz jauna, ko iemācīties, pārejot no sektoru diagrammas uz joslu diagrammu un tālāk. Programmatūras komandā nepārprotami ir vairāki cilvēki, kuriem ir kāds māksliniecisks talants.

 

Lielo datu rīki: Splunk

Splunk nedaudz atšķiras no pārējām opcijām. Tas nav gluži pārskatu veidojošs rīks vai AI rutīnas kolekcija, lai gan tas daudz ko paveic. Tas izveido jūsu datu indeksu tā, it kā jūsu dati būtu grāmata vai teksta bloks. Jā, arī datu bāzes veido indeksus, taču Splunk pieeja ir daudz tuvāka teksta meklēšanas procesam.

Šī indeksēšana ir pārsteidzoši elastīga. Splunk jau ir pielāgots manai konkrētajai lietojumprogrammai, padarot jēgu žurnālfailus, un tas tos iesūcis. Tas tiek pārdots arī vairākos dažādos risinājumu paketēs, ieskaitot vienu Microsoft Exchange servera uzraudzībai un otru tīmekļa uzbrukumu noteikšanai. Indekss palīdz korelēt datus šajos un vairākos citos izplatītos servera puses scenārijos.

$config[zx-auto] not found$config[zx-overlay] not found