Programmēšana

4 iemesli, kāpēc lielo datu projekti neizdodas, un 4 veidi, kā gūt panākumus

Lielo datu projekti ir labi apjomīgi un apjomīgi, bieži vien ļoti vērienīgi un pārāk bieži - pilnīgas neveiksmes. 2016. gadā Gartner lēsa, ka 60 procenti lielo datu projektu izgāzās. Gadu vēlāk Gartner analītiķis Niks Heudekers sacīja, ka viņa uzņēmums ir "pārāk konservatīvs" ar savu 60 procentu novērtējumu un tuvina neveiksmes līmeni tuvāk 85 procentiem. Šodien viņš saka, ka nekas nav mainījies.

Gartners šajā vērtējumā nav viens. Ilggadējais Microsoft izpilddirektors un (līdz nesenam laikam) Snowflake Computing izpilddirektors Bobs Muglijs analītikas vietnei Datanami sacīja: “Es nevaru atrast laimīgu Hadoop klientu. Tas ir kaut kā tik vienkārši. … To klientu skaits, kuri faktiski veiksmīgi pieradinājuši Hadoop, iespējams, ir mazāk nekā 20, un tas varētu būt mazāks par desmit. Tas ir tikai rieksts, ņemot vērā, cik ilgi šis produkts, šī tehnoloģija ir bijusi tirgū, un cik daudz vispārējās rūpniecības enerģijas tajā ir ieguldīts. " Hadoop, protams, ir dzinējs, kas uzsāka lielo datu māniju.

Arī citi cilvēki, kas pārzina lielos datus, apgalvo, ka problēma joprojām ir reāla, nopietna un nav pilnībā saistīta ar tehnoloģijām. Faktiski tehnoloģija ir maznozīmīgs neveiksmes cēlonis salīdzinājumā ar patiesajiem vainīgajiem. Šeit ir četri galvenie iemesli, kāpēc lielo datu projekti neizdodas, un četri galvenie veidi, kā jūs varat gūt panākumus.

Lielo datu problēma Nr. 1: vāja integrācija

Heudekers sacīja, ka aiz lielo datu kļūmēm slēpjas viena liela tehnoloģiska problēma, un tā ir vairāku avotu noklusēto datu integrēšana, lai iegūtu ieskatu, kādu vēlas uzņēmumi. Savienojumu izveide ar apklusinātām, mantotām sistēmām vienkārši nav viegli. Viņš teica, ka integrācijas izmaksas piecas līdz desmit reizes pārsniedz programmatūras izmaksas. “Lielākā problēma ir vienkārša integrācija: kā jūs sasaistāt vairākus datu avotus kopā, lai iegūtu sava veida rezultātu? Daudzi iet pa datu ezera ceļu un domā, ja es visu saistīšu ar kaut ko maģisku. Tā tas nav, ”viņš teica.

Apklāsti dati ir daļa no problēmas. Klienti ir teikuši, ka viņi no ierakstu sistēmām ievilka datus kopējā vidē, piemēram, datu ezerā, un nevarēja saprast, ko nozīmē vērtības. "Kad jūs ievilkat datus datu ezerā, kā jūs zināt, ko nozīmē šis skaitlis 3?" - Heudekers jautāja.

Tā kā viņi strādā tvertnēs vai veido datu ezerus, kas ir tikai datu purvi, viņi tikai saskrāpē virsmu tam, ko viņi varētu paveikt, sacīja PwC vecākais pētnieks Alans Morisons. "Viņi nesaprot visas sakarības datos, kas ir jānosaka vai jāsecina, un jāpaskaidro, lai mašīnas varētu adekvāti interpretēt šos datus. Viņiem ir jāizveido zināšanu diagrammas slānis, lai mašīnas varētu interpretēt visus zemāk attēlotos eksemplāru datus. Pretējā gadījumā jums tikko ir datu ezers, kas ir datu purvs, ”viņš teica.

Lielo datu problēma Nr. 2: nedefinēti mērķi

Jūs domājat, ka lielākajai daļai cilvēku, kas veic lielu datu projektu, patiesībā būtu mērķis, taču pārsteidzoši daudz to nedara. Viņi vienkārši uzsāk projektu ar mērķi kā pēcnoderību.

“Jums ir labi jāaptver problēma. Cilvēki domā, ka viņi var savienot strukturētus un nestrukturētus datus un iegūt nepieciešamo ieskatu. Jums ir jādefinē problēma jau pašā sākumā. Kādu ieskatu vēlaties iegūt? Tam ir skaidri definēta problēma un tā ir definēta jau pašā sākumā, ”sacīja Rejs Kristofers, datu integrācijas programmatūras uzņēmuma Talend produktu mārketinga vadītājs.

Uzņēmumu Enterprise Consulting galvenais analītiķis Džošua Grīnbaums sacīja, ka daļa no tā, kas ir ietekmējis gan lielo datu, gan datu noliktavas projektus, ir galvenie vadošie kritēriji parasti ir liela datu apjoma uzkrāšana, nevis diskrētu biznesa problēmu risināšana.

“Ja jūs apkopojat lielu datu apjomu, iegūstat datu izgāztuvi. Es to saucu par sanitārijas poligonu. Izgāztuves nav piemērota vieta risinājumu meklēšanai, ”sacīja Grīnbaums. "Es vienmēr saku klientiem izlemt, kāda diskrēta biznesa problēma vispirms ir jāatrisina, un eju ar to, un pēc tam aplūkoju pieejamo datu kvalitāti un atrisinu datu problēmu, kad biznesa problēma ir identificēta."

“Kāpēc lielākā daļa lielo datu projektu neizdodas? Iesācējiem lielākajai daļai lielo datu projektu vadītāju trūkst redzējuma, ”sacīja PwC Morisons. “Uzņēmumi ir neizpratnē par lielajiem datiem. Lielākā daļa domā tikai par skaitliskiem datiem vai melnās kastes NLP un atpazīšanas dzinējiem, kas vienkāršo teksta ieguvi un cita veida modeļu atpazīšanu.

Lielo datu problēma Nr. 3: prasmju trūkums

Pārāk bieži uzņēmumi domā, ka iekšējās prasmes, kuras viņi ir izveidojuši datu noliktavām, pārvērtīs lielajos datos, kad tas acīmredzami nenotiek. Iesācējiem datu noliktava un lielie dati apstrādā datus pilnīgi pretēji: datu noliktava veido shēmu par rakstīšanu, kas nozīmē, ka dati tiek iztīrīti, apstrādāti, strukturēti un organizēti, pirms tie jebkad nonāk datu noliktavā.

Lielajos datos dati tiek uzkrāti un tiek izmantota shēma par lasīšanu, kur dati tiek apstrādāti, kad tie tiek lasīti. Tātad, ja datu apstrāde iet atpakaļ no vienas metodikas uz otru, varat derēt, ka ir arī prasmes un rīki. Un tas ir tikai viens piemērs.

“Prasmes vienmēr būs izaicinājums. Ja mēs runājam par lielajiem datiem pēc 30 gadiem, problēma joprojām būs, ”sacīja Heudekers. “Daudzi cilvēki cepuri uzliek Hadoopam. Maniem klientiem ir grūti atrast Hadoop resursus. Dzirkstele ir nedaudz labāka, jo šī kaudze ir mazāka un to ir vieglāk apmācīt. Hadoop ir desmitiem programmatūras komponentu. ”

Lielo datu problēma Nr. 4: plaisa tehnoloģiju paaudzē

Lielo datu projekti bieži ņem no vecākām datu tvertnēm un mēģina tos apvienot ar jauniem datu avotiem, piemēram, sensoriem vai tīmekļa trafiku vai sociālajiem medijiem. Tā nav pilnībā uzņēmuma vaina, kas savāca šos datus pirms lielo datu analīzes idejas, tomēr tā ir problēma.

"Gandrīz lielākā prasme, kuras trūkst, ir prasme saprast, kā sajaukt šīs abas ieinteresētās puses, lai tās darbotos kopā sarežģītu problēmu risināšanā," sacīja konsultants Grīnbaums. “Datu silosi var būt šķērslis lielo datu projektiem, jo ​​nav nekā standarta. Tātad, kad viņi sāk izskatīt plānošanu, viņi atklāj, ka šīs sistēmas nav ieviestas nekādā veidā, ka šie dati tiktu atkārtoti izmantoti, ”viņš teica.

"Izmantojot dažādas arhitektūras, apstrāde ir jāveic atšķirīgi," sacīja Talenda Kristofers. “Tehniskās prasmes un arhitektūras atšķirības bija izplatīts iemesls, kāpēc jūs nevarat izmantot pašreizējos rīkus lokālai datu noliktavai un integrēt to lielo datu projektā, jo šīs tehnoloģijas kļūs pārāk dārgas jaunu datu apstrādei. Tātad jums ir nepieciešama Hadoopand Spark, un jums jāapgūst jaunas valodas. ”

Lielo datu risinājums Nr. 1: Plānojiet uz priekšu

Tā ir veca klišeja, taču piemērojama šeit: ja neizdodas plānot, plāno izgāzties. "Veiksmīgi uzņēmumi ir tie, kuriem ir rezultāts," sacīja Gartnera Heudekers. “Izvēlieties kaut ko mazu un sasniedzamu un jaunu. Neņemiet vērā mantoto lietojumu, jo jums ir ierobežojumi. ”

"Viņiem vispirms ir jādomā par datiem un modelē savas organizācijas mašīnlasāmā veidā, lai dati kalpotu šai organizācijai," sacīja PwC Morisons.

Lielo datu risinājums Nr. 2: Strādājiet kopā

Pārāk bieži ieinteresētās personas netiek iekļautas lielo datu projektos - tieši cilvēki, kas izmantotu rezultātus. Ja visas ieinteresētās puses sadarbojas, tās var pārvarēt daudzus šķēršļus, sacīja Heudekers. "Ja kvalificēti cilvēki strādā kopā un strādā ar uzņēmējdarbību, lai panāktu efektīvu rezultātu, tas var palīdzēt," viņš teica.

Heudekers atzīmēja, ka uzņēmumi, kas gūst panākumus lielo datu jomā, daudz iegulda vajadzīgajās prasmēs. Viņš to visvairāk redz uz datiem balstītos uzņēmumos, piemēram, finanšu pakalpojumos, Uber, Lyft un Netflix, kur uzņēmuma liktenis ir balstīts uz labu, darboties spējīgu datu iegūšanu.

„Padariet to par komandas sporta veidu, kas palīdz kurēt un apkopot datus, kā arī tos attīrīt. Tas var palielināt arī datu integritāti, ”sacīja Talenda Kristofers.

Lielo datu risinājums Nr. 3: fokuss

Šķiet, ka cilvēkiem ir domāšanas veids, ka lielo datu projektam jābūt masveidam un tālejošam. Tāpat kā jebkas, ko mācāties pirmo reizi, labākais veids, kā gūt panākumus, ir sākt mazu, pēc tam pakāpeniski paplašināties ambīciju un apjoma ziņā.

"Viņiem vajadzētu ļoti šauri definēt, ko viņi dara," sacīja Heudekers. "Viņiem vajadzētu izvēlēties problemātisko domēnu un piederēt tam, piemēram, krāpšanas atklāšanai, klientu mikrosegmentēšanai vai izdomāt, ko jaunu produktu ieviest tūkstošgadu tirgū."

"Dienas beigās jums jājautā, kādu ieskatu vēlaties, vai biznesa procesu digitalizēt," sacīja Kristofers. “Jūs nemetat tehnoloģiju tikai uz biznesa problēmu; jums tas jādefinē priekšā. Datu ezers ir nepieciešamība, taču jūs nevēlaties vākt datus, ja tos neviens neizmantos uzņēmējdarbībā. "

Daudzos gadījumos tas nozīmē arī nepārspīlēt savu uzņēmumu. “Katrā uzņēmumā, kuru jebkad esmu mācījies, ir tikai daži simti galveno jēdzienu un attiecību, ar kuriem darbojas viss bizness. Tiklīdz jūs to saprotat, jūs saprotat, ka visi šie miljonu atšķirības ir tikai nelielas šo dažu simtu svarīgo lietu variācijas, ”sacīja PwC Morisons. "Patiesībā jūs atklājat, ka daudzas nelielās variācijas nebūt nav tās. Tās tiešām ir tās pašas lietas ar dažādiem nosaukumiem, atšķirīgu struktūru vai atšķirīgām etiķetēm, ”viņš piebilda.

Lielo datu risinājums Nr. 4: Jettison mantojums

Kaut arī jūs varētu vēlēties izmantot šos datu bāzē savāktos un glabātos terabaitus datu, patiesībā jums varētu būt labāk apkalpot, koncentrējoties tikai uz jaunievāktajiem datiem krātuves sistēmās, kas paredzētas lieliem datiem un paredzētas atcelšanai.

"Es noteikti iesaku neuzskatīt par esošu tehnoloģiju infrastruktūru tikai tāpēc, ka jūsu uzņēmums ir tās licence," sacīja konsultants Grīnbaums. “Bieži vien jaunām sarežģītām problēmām var būt nepieciešami jauni sarežģīti risinājumi. Desmit gadu laikā atpalikt no vecajiem instrumentiem visā korporācijā nav pareizais ceļš. Daudzi uzņēmumi izmanto vecus rīkus, un tas nogalina projektu. ”

Morisons o = atzīmēja: "Uzņēmumiem ir jāpārtrauc savelties kājās savās apakšveļās un vienkārši jāatlaiž mantotā arhitektūra, kas rada vairāk skābbarības." Viņš arī teica, ka viņiem jāpārtrauc gaidīt, ka pārdevēji atrisinās viņu sarežģītās sistēmas problēmas. „Šķiet, ka gadu desmitiem ilgi viņi var nopirkt izeju no lielo datu problēmas. Jebkura lielo datu problēma ir sistēmiska problēma. Kad runa ir par jebkādām sarežģītām sistēmu izmaiņām, jums jāveido sava izeja, ”viņš teica.