Qubole pregled: Samoposlužna analitika velikih podataka

Qubole, koji se naplaćuje kao matična podatkovna platforma za analitiku, AI i strojno učenje, nudi rješenja za angažman kupaca, digitalnu transformaciju, proizvode koji se temelje na podacima, digitalni marketing, modernizaciju i sigurnosnu inteligenciju. Zahtijeva brzo vrijeme za vrijednost, podršku za više oblaka, 10x produktivnost administratora, omjer operatora i korisnika 1: 200 i niže troškove oblaka.

Ono što Qubole zapravo radi, na temelju mog kratkog iskustva s platformom, jest integriranje brojnih alata otvorenog koda i nekoliko vlasničkih alata kako bi stvorio oblak, samoposlužno iskustvo velikih podataka za analitičare podataka, inženjere podataka i znanstvenici podataka.

Qubole vas vodi od ETL-a kroz istraživačku analizu podataka i izradu modela do postavljanja modela na proizvodnoj razini. Usput automatizira brojne operacije u oblaku, kao što su osiguravanje i skaliranje resursa, koji inače mogu zahtijevati značajnu količinu administratorskog vremena. Hoće li ta automatizacija u stvari omogućiti deset puta veće produktivnost administratora ili omjer operatora i korisnika od 1: 200 za bilo koju određenu tvrtku ili slučaj upotrebe, nije jasno.

Qubole nastoji navaliti na koncept "aktivnih podataka". U osnovi, većina podatkovnih jezera - koja su u osnovi pohrane datoteka ispunjenih podacima iz mnogih izvora, sve na jednom mjestu, ali ne u jednoj bazi podataka - ima nizak postotak podataka koji se aktivno koristi za analizu. Qubole procjenjuje da je većina podatkovnih jezera 10% aktivno i 90% neaktivno, te predviđa da može preokrenuti taj omjer.

Natjecatelji Quboleu uključuju Databricks, AWS i Cloudera. Postoji niz drugih proizvoda koji se natječu samo s nekim Quboleovim funkcijama.

Databricks gradi bilježnice, nadzorne ploče i poslove na vrhu upravitelja klastera i Sparka; Našao sam ga korisnom platformom za znanstvenike podataka kada sam ga pregledao 2016. Databricks je nedavno otvorio svoj proizvod Delta Lake, koji pruža ACID transakcije, skalabilno rukovanje metapodacima i objedinjenu streaming i batch obradu podataka na jezerima podataka kako bi ih učinili pouzdanijima. i da im pomogne da nahrane Spark analizu.

AWS ima širok raspon podatkovnih proizvoda, a zapravo Qubole podržava integraciju s mnogim od njih. Cloudera, koja sada uključuje Hortonworks, nudi usluge skladišta podataka i strojnog učenja, kao i uslugu podatkovnog čvorišta. Qubole tvrdi da i Databricksima i Clouderi nedostaje financijsko upravljanje, ali upravljanje možete provesti sami na razini jednog oblaka ili pomoću proizvoda za upravljanje više oblaka.

Kako Qubole djeluje

Qubole integrira sve svoje alate u okruženje temeljeno na oblaku i pregledniku. O dijelovima okoliša raspravit ću u sljedećem odjeljku ovog članka; u ovom ću se dijelu usredotočiti na alate.

Qubole ostvaruje kontrolu troškova kao dio upravljanja svojim klasterima. Možete odrediti da klasteri koriste određenu kombinaciju vrsta instance, uključujući spot primjere kada su dostupni, te minimalan i maksimalan broj čvorova za automatsko skaliranje. Također možete odrediti trajanje vremena da će se bilo koji klaster nastaviti izvoditi u nedostatku opterećenja, kako biste izbjegli "zombi" slučajeve.

Iskra

U svom članku iz kolovoza, "Kako se Qubole bavi izazovima Apache Spark-a", izvršni direktor Qubole-a Ashish Thusoo raspravlja o prednostima i zamkama Sparka i kako Qubole otklanja poteškoće poput konfiguracije, performansi, troškova i upravljanja resursima. Spark je ključna komponenta Qubole-a za znanstvenike podataka, omogućujući jednostavnu i brzu transformaciju podataka i strojno učenje.

Presto

Presto je mehanizam za distribuciju SQL upita s otvorenim izvorom za pokretanje interaktivnih analitičkih upita prema izvorima podataka svih veličina, u rasponu od gigabajta do petabajta. Presto upiti rade mnogo brže od upita Hive. U isto vrijeme, Presto može vidjeti i koristiti Hive metapodatke i sheme podataka.

Košnica

Apache Hive popularan je projekt otvorenog koda u ekosustavu Hadoop koji olakšava čitanje, pisanje i upravljanje velikim skupovima podataka koji se nalaze u distribuiranoj pohrani pomoću SQL-a. Struktura se može projicirati na podatke koji su već u pohrani. Izvršenje upita za košnice izvodi se putem Apache Tez, Apache Spark ili MapReduce. Hive on Qubole može raditi automatsko skaliranje s osvjetljenjem radnog opterećenja i izravno pisanje; open-source Hive-u nedostaju ove optimizacije usmjerene na oblak.

Osnivači Qubolea bili su i tvorci Apache Hivea. Pokrenuli su Hive na Facebooku i otvorili ga 2008. godine.

Kvantni

Quantum je Quboleov vlastiti interaktivni SQL upit za pokretanje bez automatskog skaliranja bez poslužitelja koji podržava Hive DDL i Presto SQL. Quantum je usluga uz naplatu koja je isplativa za sporadične obrasce upita koji se šire kroz dulja razdoblja i ima strogi način sprječavanja neočekivane potrošnje. Quantum koristi Presto i nadopunjuje klastere Presto poslužitelja. Kvantni upiti ograničeni su na vrijeme izvođenja od 45 minuta.

Protok zraka

Airflow je platforma zasnovana na Pythonu za programsko kreiranje, raspoređivanje i nadgledanje tijekova rada. Tijekovi rada usmjereni su acikličkim grafovima zadataka. DAG-ove konfigurirate pisanjem cjevovoda u Python kodu. Qubole nudi Airflow kao jednu od svojih usluga; često se koristi za ETL.

Novi QuboleOperator može se koristiti kao i bilo koji drugi postojeći operator protoka zraka. Tijekom izvršavanja operatora u tijeku rada, on će predati naredbu Qubole Data Service i pričekati dok naredba ne završi. Qubole podržava senzore tablice datoteka i košnica koje Airflow može koristiti za programsko nadgledanje tijeka rada.

Da biste vidjeli korisničko sučelje Airflow, prvo morate pokrenuti klaster Airflow, a zatim otvoriti stranicu klastera da biste vidjeli web mjesto Airflow.

RubiX

RubiX je Qubole-ov lagani okvir za predmemoriranje podataka koji se može koristiti sustavom velikih podataka koji koristi sučelje sustava datoteka Hadoop. RubiX je dizajniran za rad sa sustavima za pohranu u oblaku kao što su Amazon S3 i Azure Blob Storage te za predmemoriranje udaljenih datoteka na lokalnom disku. Qubole je objavio RubiX za otvoreni izvor. Omogućavanje RubiX-a u Qubole-u stvar je označavanja okvira.

Što Qubole radi?

Qubole pruža cjelovitu platformu za analitiku i znanost o podacima. Funkcionalnost je raspoređena između desetak modula.

Modul Istraživanje omogućuje vam pregled tablica podataka, dodavanje spremišta podataka i postavljanje razmjene podataka. Na AWS-u možete pregledati podatkovne veze, S3 segmente i spremišta podataka Qubole Hive.

Moduli Analyze i Workbench omogućuju vam pokretanje ad hoc upita na skupovima podataka. Analyze je staro sučelje, a Workbench je novo sučelje, koje je još bilo u beta verziji kad sam ga probao. Oba sučelja omogućuju vam povlačenje i ispuštanje podatkovnih polja u vaše SQL upite i odabir mehanizma koji koristite za pokretanje operacija: Quantum, Hive, Presto, Spark, baza podataka, ljuska ili Hadoop.

Smart Query je izrađivač SQL upita temeljen na obrascima za Hive i Presto. Predlošci vam omogućuju ponovnu upotrebu parametriziranih SQL upita.

Prijenosna računala su Zeppelin bazirana na Varnici ili (u beta verziji) Jupyterova prijenosna računala za znanost o podacima. Nadzorne ploče pružaju sučelje za dijeljenje vaših istraživanja, ne dopuštajući pristup vašim bilježnicama.

Planer vam omogućuje pokretanje upita, tijekova rada, uvoza i izvoza podataka i naredbi automatski u intervalima. To nadopunjuje ad-hoc upite koje možete pokrenuti u modulima Analiziraj i Radni stol.

Modul klastera omogućuje vam upravljanje klasterima poslužitelja Hadoop / Hive, Spark, Presto, Airflow i dubokog učenja (beta). Upotreba vam omogućuje praćenje upotrebe klastera i upita. Upravljačka ploča omogućuje vam konfiguriranje platforme, bilo za sebe ili za druge ako imate dozvole za administraciju sustava.

Qubole prolaz s kraja na kraj

Prošao sam kroz uvoz unosa baze podataka, stvaranje sheme Hive i analizu rezultata s Hive-om i Prestom, i odvojeno u Spark bilježnici. Također sam pogledao Airflow DAG za isti postupak i bilježnicu za strojno učenje s Sparkom na nepovezanom skupu podataka.

Duboko učenje u Quboleu

Znanost podataka vidjeli smo u Quboleu do razine klasičnog strojnog učenja, ali što je s dubokim učenjem? Jedan od načina za postizanje dubinskog učenja u Quboleu je umetanje Python koraka u vaše bilježnice koji uvoze okvire za duboko učenje, poput TensorFlowa, i njihova upotreba u skupovima podataka koji su već projektirani sa Sparkom. Drugi je poziv Amazonu SageMaker iz prijenosnika ili Airflowa, pod pretpostavkom da vaša instalacija Qubole radi na AWS-u.

Većina onoga što radite u Quboleu ne zahtijeva pokretanje na GPU-ima, ali duboko učenje često treba GPU-ove kako bi se trening mogao završiti u razumnom roku. Amazon SageMaker brine se o tome izvodeći duboke korake učenja u odvojenim klasterima, koje možete konfigurirati sa onoliko čvorova i GPU-a koliko je potrebno. Qubole također nudi klastere za strojno učenje (u beta verziji); na AWS-u omogućuju ubrzane radničke čvorove g i p tipa s Nvidijinim grafičkim procesorima, a na Google Cloud Platformi i Microsoft Azure omogućuju ekvivalentne ubrzane radne čvorove.

Komplet alata za velike podatke u oblaku

Qubole, izvorna podatkovna platforma u oblaku za analitiku i strojno učenje, pomaže vam da uvezete skupove podataka u podatkovno jezero, izgradite sheme s Hive-om i ispitate podatke s Hive-om, Presto-om, Quantum-om i Sparkom. Za izradu tijekova rada koristi bilježnice i Airflow. Također može pozvati druge usluge i koristiti se drugim knjižnicama, na primjer uslugom Amazon SageMaker i knjižnicom TensorFlow Python za duboko učenje.

Qubole vam pomaže u upravljanju potrošnjom u oblaku kontrolirajući kombinaciju instanci u klasteru, pokrećući i automatski skalirajući klastere na zahtjev i automatski isključujući klastere kad se ne koriste. Radi na AWS-u, Microsoft Azureu, Google Cloud Platformi i Oracle Cloudu.

Sve u svemu, Qubole je vrlo dobar način da iskoristite (ili "aktivirate") svoje jezero podataka, izolirane baze podataka i velike podatke. Qubole možete besplatno testirati 14 dana na odabiru AWS-a, Azure-a ili GCP-a s uzorcima podataka. Također možete organizirati besplatno cjelovito probno razdoblje za do pet korisnika i jedan mjesec, koristeći svoj vlastiti račun infrastrukture u oblaku i vlastite podatke.

-

Trošak: Probni i probni računi, besplatno. Enterprise platforma, 0,14 USD po QCU (Qubole Compute Unit) po satu. 

Platforma: Amazon Web Services, Google Cloud Platform, Microsoft Azure, Oracle Cloud.