Programmēšana

Sniegpārsliņu apskats: datu mākoņā uzlabota datu noliktava

Datu noliktavas, sauktas arī par uzņēmuma datu noliktavām (EDW), ir ļoti paralēlas SQL vai NoSQL datu bāzes, kas paredzētas analīzei. Tie ļauj importēt datus no vairākiem avotiem un ātri izveidot sarežģītus pārskatus no petabaitu lieluma datiem.

Atšķirība starp datu noliktavu un datu centru ir tāda, ka parasti datu centrs ir ierobežots ar vienu tēmu un vienu nodaļu. Atšķirība starp datu noliktavu un datu ezeru ir tāda, ka datu ezerā dati tiek glabāti dabiskajā formātā, bieži vien plankumi vai faili, savukārt datu noliktavā dati tiek glabāti kā datu bāze.

Īsumā sniegpārsla

Sniegpārsla ir pilnīgi relāciju veidojoša ANSI SQL datu noliktava, kas tika izveidota no pamatiem mākoņam. Tās arhitektūra atdala skaitļošanu no krātuves, lai jūs bez kavēšanās vai traucējumiem varētu lidot uz augšu un uz leju, pat ja darbojas vaicājumi. Jums nepieciešamo veiktspēju jūs saņemat tieši tad, kad jums tas ir nepieciešams, un jūs maksājat tikai par izmantoto aprēķinu. Sniegpārsla pašlaik darbojas Amazon Web Services un Microsoft Azure.

Sniegpārsla ir pilnībā kolonnveida datu bāze ar vektorizētu izpildi, kas ļauj risināt pat visprasīgākās analītiskās slodzes. Snowflake adaptīvā optimizācija nodrošina, ka vaicājumi automātiski iegūst vislabāko iespējamo veiktspēju, bez pārvaldāmiem indeksiem, izplatīšanas taustiņiem vai pielāgošanas parametriem.

Sniegpārsla var atbalstīt neierobežotu vienlaicīgumu ar savu unikālo vairāku kopu koplietojamo datu arhitektūru. Tas ļauj vairākām skaitļošanas kopām vienlaikus darboties ar vieniem un tiem pašiem datiem, nemazinot veiktspēju. Sniegpārsla var pat automātiski mērogot, lai apstrādātu dažādas vienlaicīguma prasības, izmantojot daudzklašu virtuālās noliktavas funkciju, pārredzami pievienojot skaitļošanas resursus maksimālās slodzes periodos un samazinot, kad kravas samazinās.

Sniegpārslas konkurenti

Sniegpārslas mākoņos konkurentu vidū ir Amazon Redshift, Google BigQuery un Microsoft Azure SQL Data Warehouse. Citus galvenos konkurentus, piemēram, Teradata, Oracle Exadata, MarkLogic un SAP BW / 4HANA, var uzstādīt mākonī, telpās un ierīcēs.

Amazon Redshift

Amazon Redshift ir ātra, mērogojama datu noliktava, kas ļauj analizēt visus datus visā datu noliktavā un jūsu Amazon S3 datu ezerā. Jūs vaicājat Redshift, izmantojot SQL. Redshift datu noliktava ir kopa, kas var automātiski izvietot un noņemt jaudu ar vienlaicīgu vaicājumu ielādi. Tomēr visi klastera mezgli ir nodrošināti vienā pieejamības zonā.

Microsoft Azure SQL datu noliktava

Microsoft Azure SQL Data Warehouse ir uz mākoņiem balstīta datu noliktava, kas izmanto Microsoft SQL dzinēju un MPP (masveidīgi paralēlu apstrādi), lai ātri izpildītu sarežģītus vaicājumus petabaitu datu apjomā. Azure SQL Data Warehouse var izmantot kā galveno datu risinājuma galveno komponentu, importējot lielus datus SQL Data Warehouse ar vienkāršiem PolyBase T-SQL vaicājumiem un pēc tam izmantojot MPP jaudu, lai palaistu augstas veiktspējas analīzi.

Azure SQL Data Warehouse ir pieejams 40 Azure reģionos visā pasaulē, bet noteikts noliktavas serveris pastāv tikai vienā reģionā. Pēc pieprasījuma varat mērogot datu noliktavas veiktspēju, taču visi darbojošie vaicājumi tiks atcelti un atjaunoti.

Google BigQuery

Google BigQuery ir bez servera, ļoti pielāgojama un izmaksu ziņā efektīva mākoņu datu noliktava ar ĢIS vaicājumiem, iebūvētu atmiņas BI dzinēju un mašīnmācīšanos. BigQuery ātri izpilda SQL vaicājumus gigabaitos līdz petabaitiem datu un padara vienkāršu pievienošanos publiskai. vai komerciālas datu kopas ar jūsu datiem.

BigQuery datu kopas ģeogrāfisko atrašanās vietu var iestatīt tikai izveides laikā. Visas vaicājumā norādītās tabulas ir jāglabā datu kopās vienā un tajā pašā vietā. Tas attiecas arī uz ārējām datu kopām un krātuves segmentiem. Ārējo Google Cloud Bigtable datu atrašanās vietai ir papildu ierobežojumi. Pēc noklusējuma vaicājumi tiek veikti tajā pašā reģionā, kur dati.

Atrašanās vietas var būt noteiktas vietas, piemēram, Ziemeļvirdžīnija, vai lieli ģeogrāfiski apgabali, piemēram, ES vai ASV. Lai pārvietotu BigQuery datu kopu no viena reģiona uz citu, tas ir jāeksportē uz Google Cloud Storage spaini tajā pašā vietā, kur atrodas jūsu datu kopa, kopēt kopu uz jauno atrašanās vietu un ielādēt to BigQuery jaunajā vietā.

Sniegpārslu arhitektūra

Sniegpārsla izmanto virtuālās skaitļošanas instances savām skaitļošanas vajadzībām un glabāšanas pakalpojumu pastāvīgai datu glabāšanai. Sniegpārsliņu nevar palaist privātā mākoņa infrastruktūrā (uz vietas vai mitināt).

Nav veicamās instalēšanas un konfigurācijas. Visu apkopi un regulēšanu veic Snowflake.

Sniegpārsla pastāvīgajiem datiem izmanto centrālo datu krātuvi, kurai var piekļūt no visiem datu noliktavas skaitļošanas mezgliem. Tajā pašā laikā Snowflake apstrādā vaicājumus, izmantojot MPP (masveidā paralēla apstrāde) skaitļošanas kopas, kur katrs klastera mezgls lokāli saglabā daļu no visas datu kopas.

Kad dati tiek ielādēti sniegpārslā, sniegpārsla sakārto šos datus iekšējā saspiestā kolonnu formātā. Iekšējie datu objekti ir pieejami tikai, izmantojot SQL vaicājumus. Varat izveidot savienojumu ar Snowflake, izmantojot tā tīmekļa lietotāja interfeisu, izmantojot CLI (SnowSQL), izmantojot ODBC un JDBC draiverus no tādām lietojumprogrammām kā Tableau, izmantojot vietējos programmēšanas valodu savienotājus un izmantojot trešo pušu savienotājus BI un ETL rīkiem.

Sniegpārsla

Sniegpārslas funkcijas

Drošība un datu aizsardzība. Sniegpārslā piedāvātās drošības funkcijas atšķiras atkarībā no izdevuma. Pat standarta izdevums piedāvā automātisku visu datu šifrēšanu un atbalstu daudzfaktoru autentifikācijai un vienreizējai pierakstīšanai. Uzņēmuma papildinājums papildina šifrētu datu periodisku atkārtotu ievadīšanu, un izdevums Enterprise for Sensitive Data papildina HIPAA un PCI DSS. Jūs varat izvēlēties, kur tiek glabāti jūsu dati, kas palīdz ievērot ES GDPR noteikumus.

Standarta un paplašināts SQL atbalsts. Sniegpārsla atbalsta lielāko daļu DDL un DML, kas definētas SQL: 1999, kā arī darījumus, dažas uzlabotas SQL funkcijas un SQL: 2003 analītisko paplašinājumu daļas (logu funkcijas un grupēšanas kopas). Tas atbalsta arī sānu un materializētus skatus, apkopotās funkcijas, saglabātās procedūras un lietotāja noteiktās funkcijas.

Rīki un saskarnes. Īpaši Snowflake ļauj kontrolēt savas virtuālās noliktavas no GUI vai komandrindas. Tas ietver noliktavu izveidi, izmēru maiņu (bez nulles dīkstāves), apturēšanu un nomešanu. Noliktavas lieluma maiņa, kamēr darbojas vaicājums, ir ļoti ērta, it īpaši, ja jāpaātrina vaicājums, kas prasa pārāk daudz laika. Cik man zināms, tas nav ieviests nevienā citā EDW programmatūrā.

Savienojamība Sniegpārslai ir savienotāji un / vai draiveri Python, Spark, Node.js, Go, .Net, JDBC, ODBC un dplyr-snowflakedb - atvērtā koda dplyr pakotnes paplašinājumam, kas tiek uzturēts vietnē GitHub.

Datu importēšana un eksportēšana. Sniegpārsla var ielādēt plašu datu un failu formātu klāstu. Tas ietver saspiestus failus; norobežoti datu faili; JSON, Avro, ORC, Parketa un XML formāti; Amazon S3 datu avoti; un vietējie faili. Tas var veikt lielapjoma iekraušanu un izkraušanu tabulās un no tām, kā arī nepārtrauktu lielapjoma ielādi no failiem.

Datu koplietošana. Snowflake nodrošina atbalstu, lai droši koplietotu datus ar citiem Snowflake kontiem. To racionalizē nulles kopiju tabulas klonu izmantošana.

Sniegpārsla

Sniegpārslas apmācības

Sniegpārsla piedāvā diezgan daudz mācību un video. Daži palīdz jums sākt darbu, citi - īpašas tēmas un citi - funkcijas.

Es iesaku izskatīt praktisko pārskatu, kas aprakstīts praktiskajā laboratorijas rokasgrāmatā par sniegpārsliņu bezmaksas izmēģinājumu.) Man tas prasīja mazāk nekā stundu un maksāja mazāk nekā piecus kredītus. Tas atstāja vēl 195 kredītpunktus bezmaksas izmēģinājumā, ar to vajadzētu pietikt, lai importētu reālus datus un pārbaudītu dažus vaicājumus.

Apmācībā tiek intensīvi izmantotas Snowflake darblapas, ērts komandu un SQL palaišanas veids tīmekļa lietotāja saskarnē. Tas cita starpā aptver datu ielādi; vaicāšana, rezultātu kešošana un klonēšana; daļēji strukturēti dati; un laika ceļojums datu bāzes objektu atjaunošanai.

Kopumā man šķiet, ka sniegpārsla ir diezgan iespaidīga. Es gaidīju, ka tas būs neveikls, bet tas tā nemaz nav. Patiesībā daudzas no tās datu noliktavas darbībām notiek daudz ātrāk, nekā es gaidīju, un, ja ir kāda, kas, šķiet, pārmeklē, es varu iejaukties un palielināt datu noliktavu, nepārtraucot notiekošo.

Lielu daļu mērogošanas var automatizēt. Veidojot datu noliktavu (skatiet iepriekš redzamo ekrānuzņēmumu), ir iespēja atļaut vairākas kopas, iespēja iestatīt mērogošanas politiku, iespēja automātiski apturēt un iespēja automātiski atsākt. Noklusējuma automātiskās apturēšanas periods ir 10 minūtes, kas neļauj noliktavai patērēt resursus ilgāk, kad tā ir dīkstāvē. Automātiskā atsākšana notiek gandrīz acumirklī un notiek ikreiz, kad tiek vaicāts noliktavai.

Ņemot vērā, ka Snowflake piedāvā 30 dienu bezmaksas izmēģinājumu ar kredītu 400 ASV dolāru apmērā un nekas nav jāinstalē, jums vajadzētu būt iespējai noteikt, vai Snowflake būs piemērots jūsu mērķiem, neizmantojot skaidru naudu. Es ieteiktu to pagriezt.

Izmaksas: 2 USD / kredīts plus 23 USD / TB / mēnesī, standarta plāns, priekšapmaksas krātuve. Viens kredīts ir vienāds ar vienu mezglu * stundu, par kuru rēķina otrais. Augstāka līmeņa plāni ir dārgāki.

Platformas: Amazon Web Services, Microsoft Azure

$config[zx-auto] not found$config[zx-overlay] not found