Programmēšana

Kā izvēlēties datu analīzes platformu

Neatkarīgi no tā, vai esat atbildīgs par programmatūras izstrādi, izstrādātājiem, sistēmām, mākoņiem, testēšanas automatizāciju, vietnes uzticamību, vadības komandu vadīšanu, infosec vai citās informācijas tehnoloģiju jomās, jums būs arvien lielākas iespējas un prasības darbam ar datiem, analīzi un mašīnmācīšanos. .

Tehniskā uzmanība: analīze

  • Kā izvēlēties datu analīzes platformu ()
  • Biznesa datu vizualizācijas 6 labākās prakses (Computerworld)
  • Veselības aprūpes analīze: 4 veiksmes stāsti (CIO)
  • SD-WAN un analīze: laulība, kas izveidota jaunajam parastajam (tīkla pasaule)
  • Kā aizsargāt algoritmus kā intelektuālo īpašumu (CSO)

Jūsu pakļautība analītikai var rasties, izmantojot IT datus, piemēram, izstrādājot metriku un ieskatus no veikliem, izstrādātājiem vai vietnes rādītājiem. Nav labāks veids, kā apgūt pamatiemaņas un rīkus, kas saistīti ar datiem, analīzi un mašīnmācīšanos, kā tikai tos pielietot jums zināmiem datiem, kurus varat iegūt, lai iegūtu ieskatu darbību vadīšanā.

Lietas kļūst nedaudz sarežģītākas, kad jūs sazarojaties ar IT datu pasauli un sniedzat pakalpojumus datu zinātnieku komandām, iedzīvotāju datu zinātniekiem un citiem biznesa analītiķiem, kas veic datu vizualizāciju, analīzi un mašīnmācīšanos.

Pirmkārt, dati ir jāielādē un jātīra. Tad, atkarībā no datu apjoma, daudzveidības un ātruma, iespējams, sastapsieties ar vairākām aizmugures datu bāzēm un mākoņdatu tehnoloģijām. Visbeidzot, pēdējo gadu laikā tas, kas agrāk bija izvēle starp biznesa inteliģenci un datu vizualizācijas rīkiem, ir kļuvis par sarežģītu pilna dzīves cikla analīzes un mašīnmācīšanās platformu matricu.

Analītikas un mašīnmācīšanās nozīme palielina IT atbildību vairākās jomās. Piemēram:

  • IT bieži nodrošina pakalpojumus visā datu integrācijā, aizmugures datu bāzēs un analīzes platformās.
  • Devops komandas bieži izvieto un mērogo datu infrastruktūru, lai varētu eksperimentēt ar mašīnmācīšanās modeļiem un pēc tam atbalstītu ražošanas datu apstrādi.
  • Tīkla operāciju komandas izveido drošus savienojumus starp SaaS analīzes rīkiem, daudzmākoņiem un datu centriem.
  • IT pakalpojumu pārvaldības komandas reaģē uz datu un analīzes pakalpojumu pieprasījumiem un incidentiem.
  • Infosec pārrauga datu drošības pārvaldību un ieviešanu.
  • Izstrādātāji lietojumprogrammās integrē analītiskos un mašīnmācīšanās modeļus.

Ņemot vērā analīzes, mākoņdatu platformu un mašīnmācīšanās iespēju eksploziju, šeit ir sniegts pamats, lai labāk izprastu analītikas dzīves ciklu, sākot no datu integrēšanas un tīrīšanas, beidzot ar datu kopām un modeļiem, līdz pašām datu bāzēm, datu platformām un analīzes piedāvājumiem.

Analytics sākas ar datu integrēšanu un datu tīrīšanu

Pirms analītiķi, iedzīvotāju datu zinātnieki vai datu zinātnes komandas var veikt analīzi, nepieciešamajiem datu avotiem viņiem jābūt pieejamiem viņu datu vizualizācijas un analīzes platformās.

Lai sāktu, var būt biznesa prasības, lai integrētu datus no vairākām uzņēmuma sistēmām, iegūtu datus no SaaS lietojumprogrammām vai straumētu datus no IoT sensoriem un citiem reāllaika datu avotiem.

Šīs ir visas darbības, lai apkopotu, ielādētu un integrētu datus analītikai un mašīnmācībai. Atkarībā no datu sarežģītības un datu kvalitātes jautājumiem ir iespējas iesaistīties datu kopās, datu katalogēšanā, pamatdatu pārvaldībā un citās datu pārvaldības iniciatīvās.

Mēs visi zinām frāzi “atkritumi iekšā, atkritumi ārā”. Analītiķiem ir jāuztraucas par savu datu kvalitāti, un datu zinātniekiem par mašīnmācīšanās modeļu novirzēm. Jauns datu integrēšanas savlaicīgums ir kritisks arī uzņēmumiem, kuri vēlas kļūt vairāk reāllaika dati. Šo iemeslu dēļ cauruļvadi, kas ielādē un apstrādā datus, ir kritiski svarīgi analītikā un mašīnmācībā.

Datu bāzes un datu platformas visu veidu datu pārvaldības izaicinājumiem

Datu ielāde un apstrāde ir pirmais nepieciešamais solis, bet pēc tam viss kļūst sarežģītāk, izvēloties optimālas datu bāzes. Mūsdienu izvēle ietver uzņēmuma datu noliktavas, datu ezerus, lielo datu apstrādes platformas un specializētas NoSQL, diagrammas, atslēgas vērtības, dokumentu un kolonnu datu bāzes. Lai atbalstītu liela mēroga datu glabāšanu un analīzi, ir tādas platformas kā Snowflake, Redshift, BigQuery, Vertica un Greenplum. Visbeidzot, ir lielās datu platformas, tostarp Spark un Hadoop.

Lieliem uzņēmumiem, iespējams, ir vairāki datu krātuves un tie izmanto mākoņdatu platformas, piemēram, Cloudera Data Platform vai MapR Data Platform, vai datu organizēšanas platformas, piemēram, InfoWorks DataFoundy, lai padarītu visus šos krātuves pieejamus analīzei.

Visiem galvenajiem publiskajiem mākoņiem, tostarp AWS, GCP un Azure, ir datu pārvaldības platformas un pakalpojumi. Piemēram, Azure Synapse Analytics ir Microsoft SQL datu noliktava mākonī, savukārt Azure Cosmos DB nodrošina saskarnes daudziem NoSQL datu krātuvēm, tostarp Cassandra (kolonnu dati), MongoDB (atslēgas vērtības un dokumentu dati) un Gremlin (diagrammas dati). .

Datu ezeri ir populāri iekraušanas doki, lai centralizētu nestrukturētus datus ātrai analīzei, un šim nolūkam var izvēlēties no Azure Data Lake, Amazon S3 vai Google Cloud Storage. Lielo datu apstrādei AWS, GCP un Azure mākoņos ir arī Spark un Hadoop piedāvājumi.

Analytics platformu mērķis ir mašīnmācīšanās un sadarbība

Ielādējot, iztīrot un uzglabājot datus, datu zinātnieki un analītiķi var sākt veikt analīzi un mašīnmācīšanos. Organizācijām ir daudz iespēju atkarībā no analītikas veida, darbu veicošās analītiskās komandas prasmēm un pamatā esošo datu struktūras.

Analytics var veikt pašapkalpošanās datu vizualizācijas rīkos, piemēram, Tableau un Microsoft Power BI. Abi šie rīki ir paredzēti iedzīvotāju datu zinātniekiem un atklāj vizualizācijas, aprēķinus un pamata analīzi. Šie rīki atbalsta datu pamata integrāciju un datu pārstrukturēšanu, taču pirms analīzes soļiem bieži notiek sarežģītāka datu sajaukšana. Tableau Data Prep un Azure Data Factory ir papildu rīki, kas palīdz integrēt un pārveidot datus.

Analytics komandas, kas vēlas automatizēt ne tikai datu integrāciju un sagatavošanu, var meklēt tādas platformas kā Alteryx Analytics procesu automatizācija. Šī pilnīgā sadarbības platforma savieno izstrādātājus, analītiķus, iedzīvotāju datu zinātniekus un datu zinātniekus ar darbplūsmas automatizācijas un pašapkalpošanās datu apstrādes, analīzes un mašīnmācīšanās apstrādes iespējām.

Alanjs Džeikobsons, Alteryx galvenais analīzes un datu virsnieks, skaidro: „Analītisko procesu automatizācijas (APA) kā kategorijas parādīšanās uzsver jaunu cerību, ka ikviens organizācijas darbinieks būs datu darbinieks. IT izstrādātāji nav izņēmums, un Alteryx APA platformas paplašināmība ir īpaši noderīga šiem zināšanu darbiniekiem. ”

Datu zinātniekiem ir vairāki rīki un platformas, kuru mērķis ir padarīt tos produktīvākus ar tādām tehnoloģijām kā Python un R, vienlaikus vienkāršojot daudzus darbības un infrastruktūras posmus. Piemēram, Databricks ir datu zinātnes darbības platforma, kas ļauj izvietot algoritmus Apache Spark un TensorFlow, vienlaikus pašpārvaldot skaitļošanas kopas AWS vai Azure mākonī.

Tagad dažas platformas, piemēram, SAS Viya, datu sagatavošanu, analīzi, prognozēšanu, mašīnmācīšanos, teksta analīzi un mašīnmācīšanās modeļu pārvaldību apvieno vienā modelops platformā. SAS izmanto analīzi un mērķē datu zinātniekus, biznesa analītiķus, izstrādātājus un vadītājus ar kopīgu sadarbības platformu.

Deivids Dulings, SAS lēmumu pārvaldības pētījumu un attīstības direktors, saka: “Mēs uzskatām, ka modeļi ir prakse izveidot atkārtojamu, pārbaudāmu operāciju cauruļvadu, lai operētājsistēmās izvietotu visu analīzi, ieskaitot AI un ML modeļus. Kā daļu no modeļiem mēs varam izmantot modernās devops prakses kodu pārvaldībai, testēšanai un uzraudzībai. Tas palīdz uzlabot modeļu izvietošanas biežumu un uzticamību, kas savukārt uzlabo uz šiem modeļiem balstīto biznesa procesu veiklību. ”

Dataiku ir vēl viena platforma, kas cenšas panākt datu sagatavošanu, analīzi un mašīnmācīšanos pieaugošajām datu zinātnes komandām un viņu līdzstrādniekiem. Dataiku ir vizuāls programmēšanas modelis, lai iespējotu sadarbības un kodu piezīmju grāmatiņas progresīvākiem SQL un Python izstrādātājiem.

Citu vadošo uzņēmuma programmatūras piegādātāju analīzes un mašīnmācīšanās platformu mērķis ir sniegt analīzes iespējas datu centrā un mākoņa datu avotos. Piemēram, gan Oracle Analytics Cloud, gan SAP Analytics Cloud mērķis ir centralizēt izlūkošanas datus un automatizēt ieskatus, lai nodrošinātu gala lēmumus.

Datu analīzes platformas izvēle

Datu integrācijas, uzglabāšanas un analīzes rīku izvēle bija vienkāršāka pirms lielo datu, mašīnmācīšanās un datu pārvaldības pieauguma. Mūsdienās ir sajaukta terminoloģija, platformas iespējas, darbības prasības, pārvaldības vajadzības un mērķtiecīgas lietotāju personas, kas padara platformu izvēli sarežģītāku, it īpaši tāpēc, ka daudzi pārdevēji atbalsta vairākas lietošanas paradigmas.

Uzņēmumi atšķiras pēc analītiskajām prasībām un vajadzībām, taču tiem būtu jāmeklē jaunas platformas no jau esošā viedokļa. Piemēram:

  • Uzņēmumi, kas guvuši panākumus ar iedzīvotāju datu zinātnes programmām un kuriem jau ir datu vizualizācijas rīki, varētu vēlēties paplašināt šo programmu ar analītisko procesu automatizāciju vai datu sagatavošanas tehnoloģijām.
  • Uzņēmumi, kuri vēlas tādu rīkķēdi, kas ļauj datu zinātniekiem, kuri strādā dažādās uzņēmējdarbības vietās, var apsvērt gala analīzes platformas ar modelops iespējām.
  • Organizācijas ar vairākām atšķirīgām aizmugures datu platformām var gūt labumu no mākoņa datu platformām, lai tās katalogizētu un centralizēti pārvaldītu.
  • Uzņēmumiem, kas standartizē visas vai lielāko daļu datu iespējas vienam publiskam mākoņpakalpojumu sniedzējam, vajadzētu izpētīt piedāvātās datu integrācijas, datu pārvaldības un datu analīzes platformas.

Tā kā analīze un mašīnmācīšanās kļūst par svarīgu pamatkompetenci, tehnologiem jāapsver padziļināta izpratne par pieejamajām platformām un viņu iespējām. Analītisko platformu jauda un vērtība tikai palielināsies, tāpat kā to ietekme visā uzņēmumā.

$config[zx-auto] not found$config[zx-overlay] not found