Programmēšana

Qubole pārskats: pašapkalpošanās lielo datu analīze

Qubole, kas tiek iekasēta par mākoņdatošanas datu platformu analītikai, AI un mašīnmācībai, piedāvā risinājumus klientu piesaistei, digitālajai transformācijai, uz datiem balstītiem produktiem, digitālajam mārketingam, modernizācijai un drošības izlūkošanai. Tas pieprasa ātru novērtēšanas laiku, vairāku mākoņu atbalstu, 10x administratora produktivitāti, operatora un lietotāja attiecību 1: 200 un zemākas mākoņa izmaksas.

Tas, ko Qubole faktiski dara, pamatojoties uz manu īso pieredzi ar platformu, ir integrēt vairākus atvērtā koda rīkus un dažus patentētus rīkus, lai izveidotu mākoņdatošanas, pašapkalpošanās lielu datu pieredzi datu analītiķiem, datu inženieriem. un datu zinātnieki.

Qubole aizved jūs no ETL, izmantojot izpētes datu analīzi un modeļu izveidi, līdz modeļu izvietošanai ražošanas mērogā. Ceļā tas automatizē vairākas mākoņa darbības, piemēram, resursu nodrošināšanu un mērogošanu, kas citādi var prasīt ievērojamu administratora laiku. Vai šī automatizācija patiešām ļaus 10x palielināt administratora produktivitāti vai 1: 200 operatora un lietotāja attiecību jebkuram konkrētam uzņēmumam vai lietošanas gadījumam, nav skaidrs.

Qubole mēdz domāt par “aktīvo datu” jēdzienu. Būtībā lielākajai daļai datu ezeru - kas būtībā ir failu krājumi, kas piepildīti ar datiem no daudziem avotiem, visi vienā vietā, bet ne vienā datu bāzē - ir mazs procentuālais datu daudzums, ko aktīvi izmanto analīzei. Qubole lēš, ka lielākā daļa datu ezeru ir 10% aktīvi un 90% neaktīvi, un paredz, ka tas var mainīt šo attiecību.

Qubole konkurentu vidū ir Databricks, AWS un Cloudera. Ir virkne citu produktu, ar kuriem tikai konkurē daži no Qubole funkcijām.

Databricks izveido piezīmju grāmatiņas, informācijas paneļus un darbus virs klastera pārvaldnieka un Spark; Es to atradu par noderīgu platformu datu zinātniekiem, kad es to pārskatīju 2016. gadā. Databricks nesen atklāja savu Delta Lake produktu, kas nodrošina ACID darījumus, mērogojamus metadatu apstrādi un vienotu straumēšanas un sērijveida datu apstrādi datu ezeros, lai padarītu tos uzticamākus. un palīdzēt viņiem sniegt Spark analīzi.

AWS ir plašs datu produktu klāsts, un faktiski Qubole atbalsta integrāciju ar daudziem no tiem. Cloudera, kurā tagad ietilpst Hortonworks, nodrošina datu noliktavas un mašīnmācīšanās pakalpojumus, kā arī datu centrmezglu. Qubole apgalvo, ka gan Databricks, gan Cloudera trūkst finanšu pārvaldības, taču pārvaldību jūs varat ieviest pats viena mākoņa līmenī vai izmantojot vairāku mākoņu pārvaldības produktu.

Kā darbojas Qubole

Qubole visus savus rīkus integrē mākoņa un pārlūka vidē. Es apspriedīšu vides fragmentus šī raksta nākamajā sadaļā; šajā sadaļā es koncentrēšos uz rīkiem.

Qubole veic izmaksu kontroli kā daļu no klastera pārvaldības. Varat norādīt, ka kopas izmanto noteiktu gadījumu kombināciju, ieskaitot vietas gadījumus, ja tie ir pieejami, un minimālo un maksimālo mezglu skaitu automātiskai mērogošanai. Varat arī norādīt, cik ilgi klasteris darbosies bez slodzes, lai izvairītos no “zombiju” gadījumiem.

Dzirksts

Augusta rakstā “Kā Qubole risina Apache Spark izaicinājumus” Qubole izpilddirektors Ešishs Šūoo apspriež Spark priekšrocības un trūkumus un to, kā Qubole novērš tādas grūtības kā konfigurācija, veiktspēja, izmaksas un resursu pārvaldība. Spark ir galvenā Qubole sastāvdaļa datu zinātniekiem, kas ļauj viegli un ātri pārveidot datus un apgūt mašīnu.

Presto

Presto ir atvērtā koda izplatīts SQL vaicājumu motors interaktīvu analītisko vaicājumu izpildei pret visu lielumu datu avotiem, sākot no gigabaitu līdz petabaitiem. Presto vaicājumi darbojas daudz ātrāk nekā stropu vaicājumi. Tajā pašā laikā Presto var redzēt un izmantot Hive metadatus un datu shēmas.

Stropu

Apache Hive ir populārs atvērtā koda projekts Hadoop ekosistēmā, kas atvieglo lielu datu kopu lasīšanu, rakstīšanu un pārvaldīšanu, kas atrodas sadalītā krātuvē, izmantojot SQL. Struktūru var projicēt uz datiem, kas jau atrodas krātuvē. Stropa vaicājuma izpilde notiek, izmantojot Apache Tez, Apache Spark vai MapReduce. Strops Qubole var veikt automātisku mērogošanu un tiešu rakstīšanu, ņemot vērā slodzi. atvērtā koda stropā trūkst šo mākoņorientēto optimizāciju.

Qubole dibinātāji bija arī Apache Hive radītāji. Viņi sāka stropu vietnē Facebook un 2008. gadā to atvēra.

Kvants

Quantum ir Qubole paša servera, automātiska mērogošana, interaktīva SQL vaicājumu programma, kas atbalsta gan Hive DDL, gan Presto SQL. Quantum ir maksas pakalpojums, kas ir rentabls sporādiskiem vaicājumu modeļiem, kas izplatās ilgāk, un tam ir stingrs režīms, lai novērstu negaidītus tēriņus. Quantum izmanto Presto un papildina Presto serveru kopas. Kvantu vaicājumi ir ierobežoti līdz 45 minūtēm.

Gaisa plūsma

Airflow ir platforma, kas balstīta uz Python, lai programmatiski izveidotu, ieplānotu un uzraudzītu darbplūsmas. Darbplūsmas ir vērsti uzdevumu acikliskie grafiki (DAG). Jūs konfigurējat DAG, ierakstot cauruļvadus Python kodā. Qubole kā vienu no saviem pakalpojumiem piedāvā Airflow; to bieži izmanto ETL.

Jauno QuboleOperator var izmantot tāpat kā jebkuru citu esošo Airflow operatoru. Operatora izpildes laikā darbplūsmā tas iesniegs komandu Qubole Data Service un gaidīs, līdz komanda būs pabeigta. Qubole atbalsta failu un Hive tabulas sensorus, kurus Airflow var izmantot, lai programmatiski uzraudzītu darbplūsmas.

Lai skatītu Airflow lietotāja saskarni, vispirms ir jāuzsāk Airflow kopa, pēc tam jāatver klastera lapa, lai skatītu Airflow vietni.

RubiX

RubiX ir Qubole vieglā datu kešatmiņas sistēma, kuru var izmantot liela datu sistēma, kas izmanto Hadoop failu sistēmas saskarni. RubiX ir paredzēts darbam ar mākoņu glabāšanas sistēmām, piemēram, Amazon S3 un Azure Blob Storage, un kešatmiņā attālajiem failiem vietējā diskā. Qubole ir izlaidis RubiX, lai atvērtu avotu. Iespējojot RubiX Qubole, ir jāatzīmē izvēles rūtiņa.

Ko dara Qubole?

Qubole nodrošina end-to-end platformu analītikai un datu zinātnei. Funkcionalitāte ir sadalīta aptuveni divpadsmit moduļos.

Izpētes modulis ļauj apskatīt datu tabulas, pievienot datu krājumus un iestatīt datu apmaiņu. Vietnē AWS varat apskatīt savus datu savienojumus, S3 segmentus un Qubole Hive datu krātuves.

Moduļi Analyze un Workbench ļauj izpildīt ad hoc vaicājumus jūsu datu kopās. Analyze ir vecā saskarne, un Workbench ir jaunā saskarne, kas joprojām bija beta versijā, kad to izmēģināju. Abas saskarnes ļauj vilkt un nomest datu laukus SQL vaicājumiem un izvēlēties motoru, kuru izmantojat operāciju veikšanai: Quantum, Hive, Presto, Spark, datu bāzi, čaulu vai Hadoop.

Smart Query ir veidlapu SQL vaicājumu veidotājs Hive un Presto. Veidnes ļauj atkārtoti izmantot parametrizētus SQL vaicājumus.

Piezīmju grāmatiņas ir Spark bāzes Zeppelin vai (beta versijā) Jupyter piezīmjdatori datu zinātnei. Informācijas paneļi nodrošina saskarni, lai koplietotu jūsu izpētes, neļaujot piekļūt jūsu piezīmjdatoriem.

Plānotājs ļauj automātiski izpildīt vaicājumus, darbplūsmas, datu importēšanu un eksportēšanu un komandas ar intervālu automātiski. Tas papildina ad-hoc vaicājumus, kurus varat izpildīt, analizējot un Workbench moduļos.

Klasteru modulis ļauj pārvaldīt Hadoop / Hive, Spark, Presto, Airflow un dziļo mācību (beta) serveru kopas. Izmantošana ļauj izsekot klastera un vaicājumu lietojumu. Vadības panelis ļauj konfigurēt platformu sev vai citiem, ja jums ir sistēmas administrēšanas atļaujas.

Qubole gājiens līdz galam

Es izgāju cauri datu bāzes importēšanas, Hive shēmas izveides un rezultātu analīzes ar Hive un Presto, kā arī atsevišķi Spark piezīmju grāmatiņā. Es arī apskatīju Airflow DAG par to pašu procesu un piezīmju grāmatiņu mašīnmācīšanās veikšanai ar Spark uz nesaistītu datu kopu.

Dziļa mācīšanās Qubole

Datu zinātni Qubole esam redzējuši līdz klasiskās mašīnmācīšanās līmenim, bet kā ir ar dziļu mācīšanos? Viens no veidiem, kā panākt dziļu mācīšanos Qubole, ir piezīmjdatoros ievietot Python soļus, kas importē dziļu mācību sistēmu, piemēram, TensorFlow, un izmantot tos datu kopās, kas jau ir izveidotas, izmantojot Spark. Cits ir piezvanīt uz Amazon SageMaker no piezīmjdatoriem vai Airflow, pieņemot, ka jūsu Qubole instalācija darbojas AWS.

Lielākajai daļai to, ko jūs darāt Qubole, nav nepieciešams darboties ar GPU, taču dziļai mācībai bieži vien ir nepieciešami GPU, lai apmācība būtu pabeigta saprātīgā laikā. Amazon SageMaker par to rūpējas, veicot padziļinātas mācīšanās darbības atsevišķās kopās, kuras varat konfigurēt ar tik daudz mezglu un GPU, cik nepieciešams. Qubole piedāvā arī mašīnmācīšanās kopas (beta versijā); AWS sistēmā tie ļauj paātrinātus g un p tipa darbinieka mezglus ar Nvidia GPU, bet Google Cloud Platform un Microsoft Azure - līdzvērtīgus paātrinātus darbinieku mezglus.

Lielo datu rīkkopa mākonī

Mākoņa vietējā datu platforma analītikai un mašīnmācībai Qubole palīdz importēt datu kopas datu ezerā, veidot shēmas ar Hive un vaicāt datus ar Hive, Presto, Quantum un Spark. Darbplūsmu veidošanai tas izmanto gan piezīmjdatorus, gan Airflow. Tas var arī izsaukt citus pakalpojumus un izmantot citas bibliotēkas, piemēram, Amazon SageMaker pakalpojumu un TensorFlow Python bibliotēku dziļām mācībām.

Qubole palīdz jums pārvaldīt tēriņus mākonī, kontrolējot klastera gadījumu skaitu, palaižot un automātiski pārveidojot kopas pēc pieprasījuma un automātiski izslēdzot kopas, kad tās netiek izmantotas. Tas darbojas ar AWS, Microsoft Azure, Google Cloud Platform un Oracle Cloud.

Kopumā Qubole ir ļoti labs veids, kā izmantot (vai "aktivizēt") jūsu datu ezeru, izolētas datu bāzes un lielos datus. Jūs varat pārbaudīt Qubole 14 dienas bez maksas, izvēloties AWS, Azure vai GCP ar datu paraugiem. Varat arī noorganizēt bezmaksas pilnas versijas izmēģinājumu līdz pieciem lietotājiem un vienam mēnesim, izmantojot savu mākoņa infrastruktūras kontu un savus datus.

Izmaksas: Pārbaudes un izmēģinājuma konti bez maksas. Uzņēmuma platforma, 0,14 USD par QCU (Qubole Compute Unit) stundā.

Platforma: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.

$config[zx-auto] not found$config[zx-overlay] not found