Programmēšana

Apache Eagle seko lielo datu lietojumam

Apache Eagle, kas sākotnēji tika izstrādāts vietnē eBay un pēc tam tika ziedots Apache programmatūras fondam, aizpilda lielu datu drošības nišu, kas joprojām ir maz apdzīvota, ja ne kaila: tā nošņāc iespējamās drošības un veiktspējas problēmas ar lielo datu ietvariem.

Lai to izdarītu, Eagle izmanto citus Apache atvērtā koda komponentus, piemēram, Kafka, Spark un Storm, lai ģenerētu un analizētu mašīnmācīšanās modeļus no lielo datu kopu uzvedības datiem.

Ieskatīšanās no iekšpuses

Dati par Eagle var būt iegūti no dažādu datu avotu (HDFS, Hive, MapR FS, Cassandra) darbību žurnāliem vai no veiktspējas rādītājiem, kas iegūti tieši no tādiem ietvariem kā Spark. Pēc tam Kafka straumēšanas sistēma datus var ievietot reāllaika noteikšanas sistēmā, kas izveidota ar Apache Storm, vai modeļa apmācības sistēmā, kas veidota uz Apache Spark. Pirmie ir brīdinājumu un ziņojumu ģenerēšana, pamatojoties uz esošo politiku; pēdējais ir paredzēts mašīnmācīšanās modeļu izveidei, lai virzītu jaunu politiku.

Šis uzsvars uz reāllaika uzvedību ir Eagle dokumentācijas "galveno īpašību" saraksta augšgalā. Tam seko "mērogojamība", "vadīti metadati" (tas nozīmē, ka politikas izmaiņas tiek izvietotas automātiski, kad tiek mainīti to metadati) un "paplašināmība". Pēdējais nozīmē, ka datu avotus, brīdināšanas sistēmas un politikas dzinējus, ko izmanto Eagle, nodrošina spraudņi, un tie neaprobežojas tikai ar lodziņā esošo.

Tā kā Ērglis tika salikts no esošajām Hadoop pasaules daļām, tam ir divas teorētiskas priekšrocības. Viens, tur ir mazāk riteņa atkārtotas izgudrošanas. Otrkārt, tiem, kuriem jau ir pieredze ar attiecīgajiem skaņdarbiem, būs kāja uz augšu.

Ko domā mani cilvēki?

Papildus iepriekš minētajiem lietošanas gadījumiem, piemēram, darba veiktspējas analīzei un anomālas uzvedības novērošanai, Ērglis var analizēt arī lietotāju uzvedību. Te nav runa, teiksim, par tīmekļa lietojumprogrammas datu analīzi, lai uzzinātu par lietotnes publiskajiem lietotājiem, bet gan par pašu lielo datu ietvarstruktūras lietotājiem - cilvēkiem, kas veido un pārvalda Hadoop vai Spark aizmuguri. Ir iekļauts piemērs, kā veikt šādu analīzi, un to varētu izvietot tādā stāvoklī, kāds tas ir, vai modificēt.

Ērglis ļauj arī klasificēt piekļuvi lietojumprogrammu datiem atbilstoši jutīguma pakāpēm. Šobrīd šo funkciju var izmantot tikai HDFS, Hive un HBase lietojumprogrammas, taču tās mijiedarbība ar tām nodrošina modeli, kā varētu klasificēt arī citus datu avotus.

Turēsim to kontrolē

Tā kā lielo datu ietvari ir ātri pārvietojami, ir grūti izveidot uzticamu drošību ap tiem. Ērgļa pieņēmums ir tāds, ka tas var sniegt uz politiku balstītu analīzi un brīdinājumus kā iespējamu papildinājumu citiem projektiem, piemēram, Apache Ranger. Ranger nodrošina autentifikāciju un piekļuves kontroli visā Hadoop un ar to saistītajās tehnoloģijās; Ērglis sniedz jums nelielu priekšstatu par to, ko cilvēki dara, tiklīdz viņi tiek ielaisti iekšā.

Lielākais jautājums, kas virza virs Eagle nākotnes - jā, pat tik agri - ir tas, cik lielā mērā Hadoop pārdevēji to eleganti ieviesīs savos esošajos izplatījumos vai izmantos savus drošības piedāvājumus. Datu drošība un pārvaldība jau sen ir viena no trūkstošajām daļām, par kuru komerciālie piedāvājumi varētu konkurēt.