Apache Eagle pazi na upotrebu velikih podataka

Apache Eagle, izvorno razvijen na eBayu, a potom doniran zakladi Apache Software Foundation, ispunjava veliku sigurnosnu nišu koja ostaje rijetko naseljena, ako ne i gola: Njuši moguće sigurnosne probleme i performanse s okvirima velikih podataka.

Da bi to učinio, Eagle koristi druge Apacheove komponente otvorenog koda, kao što su Kafka, Spark i Storm, za generiranje i analizu modela strojnog učenja iz podataka o ponašanju klastera velikih podataka.

Gledajući iznutra

Podaci za Eagle mogu doći iz dnevnika aktivnosti za različite izvore podataka (HDFS, Hive, MapR FS, Cassandra) ili iz mjernih podataka izvedbe prikupljenih izravno iz okvira poput Sparka. Podaci se zatim mogu prenositi Kafkinim strujnim okvirom u sustav za otkrivanje u stvarnom vremenu koji je ugrađen u Apache Storm ili u sustav za obuku modela izgrađen na Apache Spark. Prvi za generiranje upozorenja i izvještaja na temelju postojećih politika; potonji je za stvaranje modela strojnog učenja za vođenje novih politika.

Ovaj naglasak na ponašanju u stvarnom vremenu na vrhu je popisa "ključnih kvaliteta" u dokumentaciji za Eagle. Slijedi "skalabilnost", "pokretani metapodacima" (što znači da se promjene pravila automatski postavljaju kada se promijene njihovi metapodaci) i "proširivost". To posljednje znači da izvori podataka, sustavi upozorenja i mehanizmi za politike koje koristi Eagle dobivaju dodatke i nisu ograničeni na ono što je u kutiji.

Budući da je Eagle sastavljen iz postojećih dijelova svijeta Hadoop, on ima dvije teorijske prednosti. Prvo, manje je ponovnog pronalaska kotača. Drugo, oni koji već imaju iskustva s dotičnim dijelovima imat će nogu.

Što rade moji ljudi?

Osim gore spomenutih slučajeva korištenja kao što su analiza izvedbe posla i praćenje anomalnog ponašanja, Eagle može analizirati i ponašanje korisnika. Ovdje se ne radi, recimo, o analizi podataka iz web aplikacije kako bi se saznalo o javnim korisnicima aplikacije, već o korisnicima samog okvira za velike podatke - ljudima koji grade i upravljaju pozadinom Hadoop ili Spark. Uključen je primjer kako pokrenuti takvu analizu, a mogla bi se primijeniti takva kakva jest ili izmijenjena.

Eagle također omogućuje klasificiranje pristupa podacima aplikacija prema razinama osjetljivosti. Samo aplikacije HDFS, Hive i HBase mogu se trenutno koristiti ovom značajkom, ali njezina interakcija s njima daje model kako se mogu klasificirati i drugi izvori podataka.

Držimo ovo pod kontrolom

Budući da su okviri za velike podatke brze kreacije, bilo je teško izgraditi pouzdanu sigurnost oko njih. Eagleova je pretpostavka da može pružiti analizu i upozorenje temeljeno na politikama kao moguću nadopunu drugim projektima poput Apache Rangera. Ranger pruža provjeru autentičnosti i kontrolu pristupa u Hadoopu i srodnim tehnologijama; Eagle vam daje neku predodžbu o tome što ljudi rade kad im se dozvoli da uđu.

Najveće pitanje koje se nadvilo nad Eagleovom budućnošću - da, čak i ovako rano - jest u kojoj će ga mjeri dobavljači Hadoopa elegantno uvrstiti u svoje postojeće distribucije ili upotrijebiti vlastitu sigurnosnu ponudu. Sigurnost podataka i upravljanje odavno su jedan od nedostajućih dijelova na kojem bi se komercijalne ponude mogle natjecati.