Ātri dati: nākamais solis pēc lielajiem datiem

Lielie dati kļūst lieli, izmantojot pastāvīgu ienākošo datu plūsmu. Liela apjoma vidēs šie dati tiek sasniegti neticami ātri, tomēr tie joprojām ir jāanalizē un jāuzglabā.

John Hugg, VoltDB programmatūras arhitekts, ierosina, nevis vienkārši glabāt šos datus, kas vēlāk jāanalizē, iespējams, mēs esam nonākuši līdz brīdim, kad tos var analizēt, kad tie tiek uzņemti, vienlaikus saglabājot ārkārtīgi augstu uzņemšanas līmeni, izmantojot tādus rīkus kā Apache Kafka.

- Pols Venēcija

Pirms mazāk nekā divpadsmit gadiem gandrīz neiespējami iedomāties vēsturisko datu petabaitu analīzi, izmantojot preču aparatūru. Mūsdienās Hadoop kopas, kas izveidotas no tūkstošiem mezglu, ir gandrīz ikdienišķas. Atvērtā koda tehnoloģijas, piemēram, Hadoop, atkārtoti iedomājās, kā efektīvi apstrādāt petabaitus pēc petabaitiem datu, izmantojot preces un virtualizētu aparatūru, padarot šo iespēju lēti pieejamu izstrādātājiem visur. Tā rezultātā parādījās lielo datu lauks.

Līdzīga revolūcija notiek ar tā sauktajiem ātrajiem datiem. Pirmkārt, definēsim ātrus datus. Lielus datus bieži rada dati, kas tiek ģenerēti neticamā ātrumā, piemēram, klikšķu plūsmas dati, finanšu rādītāju dati, žurnālu apkopošana vai sensoru dati. Bieži vien šie notikumi notiek tūkstošiem līdz desmitiem tūkstošu reižu sekundē. Nav brīnums, ka šāda veida datus parasti sauc par "ugunsdzēsības šļūteni".

Kad mēs runājam par ugunsdzēsības šļūtenēm lielos datos, mēs nemērām apjomu tipiskajos gigabaitos, terabaitos un petabaitos, kas pazīstami datu noliktavām. Mēs mērām apjomu laika ziņā: megabaitu skaits sekundē, gigabaiti stundā vai terabaiti dienā. Mēs runājam par ātrumu, kā arī apjomu, kas ir lielo datu un datu noliktavas atšķirības pamatā. Lielie dati nav tikai lieli; tas ir arī ātri.

Lielo datu priekšrocības tiek zaudētas, ja svaigi un ātri pārvietojami dati no ugunsdzēsības šļūtenes tiek izmesti HDFS, analītiskā RDBMS vai pat plakanos failos, jo spēja rīkoties vai brīdināt tieši tagad, kad lietas notiek, ir pazudis. Ugunsdzēsības šļūtene apzīmē aktīvos datus, tūlītējo statusu vai datus ar pastāvīgu mērķi. Datu noliktava, gluži pretēji, ir veids, kā meklēt vēsturiskos datus, lai saprastu pagātni un prognozētu nākotni.

Tiek uzskatīts, ka rīcība pēc datiem pēc to saņemšanas ir dārga un nepraktiska, ja ne pat neiespējama, it īpaši attiecībā uz preču aparatūru. Tāpat kā lielo datu vērtība, ātro datu vērtība tiek atbloķēta, atkārtoti iedomājoties ziņojumu rindu un straumēšanas sistēmu, piemēram, atvērtā koda Kafka un Storm, ieviešanu un atkārtotu datu bāzu ieviešanu, ieviešot atvērtā koda NoSQL un NewSQL piedāvājumus. .

Notver vērtību ātros datos

Lai apstrādātu datus no desmitiem tūkstošu līdz miljoniem notikumu sekundē, jums būs nepieciešamas divas tehnoloģijas: Pirmkārt, straumēšanas sistēma, kas spēj nodrošināt notikumus tikpat ātri, cik tie ienāk; un, otrkārt, datu krātuve, kas spēj apstrādāt katru vienumu tik ātri, cik tas pienāk.

Ātru datu piegāde

Kafka tika veidota tā, lai tā būtu ziņojumu rinda un lai atrisinātu esošās tehnoloģijas uztvertās problēmas. Tā ir sava veida überrinda ar neierobežotu mērogojamību, izplatītu izvietošanu, daudzvietību un spēcīgu noturību. Organizācija varētu izvietot vienu Kafka kopu, lai apmierinātu visas savas ziņojumu rindošanas vajadzības. Tomēr tā pamatā Kafka sniedz ziņojumus. Tas neatbalsta jebkāda veida apstrādi vai vaicājumus.

Jums varētu patikt arī