Kako odabrati platformu za analitiku podataka

Bez obzira imate li odgovornosti u razvoju softvera, devopsu, sustavima, oblacima, automatizaciji ispitivanja, pouzdanosti web mjesta, vodećim scrum timovima, infosec-u ili drugim područjima informacijske tehnologije, imat ćete sve veće mogućnosti i zahtjeve za rad s podacima, analitikom i strojnim učenjem .

Tech Spotlight: Analytics

  • Kako odabrati platformu za analitiku podataka ()
  • 6 najboljih praksi za vizualizaciju poslovnih podataka (Computerworld)
  • Analitika u zdravstvu: 4 priče o uspjehu (CIO)
  • SD-WAN i analitika: Brak stvoren za novo normalno (Mrežni svijet)
  • Kako zaštititi algoritme kao intelektualno vlasništvo

Izloženost analitici može doći putem IT podataka, poput razvijanja mjernih podataka i uvida iz agilnih, devopskih ili mjernih podataka web mjesta. Ne postoji bolji način da naučite osnovne vještine i alate oko podataka, analitike i strojnog učenja od njihove primjene na podatke koje poznajete i koje možete iskopati radi uvida u pokretanju radnji.

Stvari postaju malo složenije kada se ogranite od svijeta IT podataka i pružite usluge timovima znanstvenika podataka, znanstvenicima podataka građana i ostalim poslovnim analitičarima koji vrše vizualizaciju podataka, analitiku i strojno učenje.

Prvo se podaci moraju učitati i očistiti. Tada ćete, ovisno o količini, raznolikosti i brzini podataka, vjerojatno naići na više pozadinskih baza podataka i tehnologija podataka u oblaku. I na kraju, tijekom posljednjih nekoliko godina ono što je nekad bilo izbor između alata za poslovnu inteligenciju i vizualizaciju podataka preraslo se u složenu matricu cjeloživotne analitike i platformi za strojno učenje.

Važnost analitike i strojnog učenja povećava IT odgovornosti na nekoliko područja. Na primjer:

  • IT često pruža usluge oko svih integracija podataka, pozadinskih baza podataka i analitičkih platformi.
  • Timovi stručnjaka često postavljaju i skaliraju podatkovnu infrastrukturu kako bi omogućili eksperimentiranje na modelima strojnog učenja, a zatim podržali obradu proizvodnih podataka.
  • Timovi mrežnih operacija uspostavljaju sigurne veze između SaaS analitičkih alata, višeglasova i podatkovnih centara.
  • Timovi za upravljanje IT uslugama odgovaraju na zahtjeve i incidente za uslugama podataka i analitike.
  • Infosec nadgleda upravljanje i primjene sigurnosti podataka.
  • Programeri integriraju modele analitike i strojnog učenja u aplikacije.

S obzirom na eksploziju analitike, podatkovnih platformi u oblaku i mogućnosti strojnog učenja, evo priručnika za bolje razumijevanje životnog ciklusa analitike, od integracije i čišćenja podataka, do dataopsa i modula, do baza podataka, platformi podataka i same ponude analitike.

Analytics započinje integracijom podataka i čišćenjem podataka

Prije nego što analitičari, znanstvenici podataka građana ili timovi za znanost o podacima mogu izvršiti analitiku, potrebni izvori podataka moraju im biti dostupni u njihovim platformama za vizualizaciju podataka i analitiku.

Za početak mogu postojati poslovni zahtjevi za integriranje podataka iz više poslovnih sustava, izvlačenje podataka iz SaaS aplikacija ili strujanje podataka iz IoT senzora i drugih izvora podataka u stvarnom vremenu.

To su svi koraci za prikupljanje, učitavanje i integriranje podataka za analitiku i strojno učenje. Ovisno o složenosti podataka i problemima s kvalitetom podataka, postoje mogućnosti za uključivanje u dataops, katalogizaciju podataka, upravljanje matičnim podacima i druge inicijative upravljanja podacima.

Svi znamo frazu, "smeće unutra, smeće vani." Analitičari moraju biti zabrinuti zbog kvalitete svojih podataka, a znanstvenici podataka zbog pristranosti u svojim modelima strojnog učenja. Također, pravodobnost integriranja novih podataka presudna je za tvrtke koje žele više upravljati podacima u stvarnom vremenu. Iz tih su razloga cjevovodi koji učitavaju i obrađuju podatke presudno važni u analitici i strojnom učenju.

Baze podataka i platforme podataka za sve vrste izazova u upravljanju podacima

Učitavanje i obrada podataka neophodan je prvi korak, ali onda se stvari kompliciraju pri odabiru optimalnih baza podataka. Današnji izbori uključuju skladišta podataka poduzeća, jezera podataka, platforme za obradu velikih podataka i specijalizirane baze podataka NoSQL, graf, ključ / vrijednost, dokumente i stupce. Da bi podržali veliko skladištenje podataka i analitiku, postoje platforme poput Pahuljica, Redshift, BigQuery, Vertica i Greenplum. I na kraju, postoje platforme za velike podatke, uključujući Spark i Hadoop.

Velika će poduzeća vjerojatno imati više spremišta podataka i koristiti platforme podataka u oblaku poput Cloudera Data Platform ili MapR Data Platform, ili platforme za orkestraciju podataka poput InfoWorks DataFoundy, kako bi sva ta spremišta učinila dostupnima za analitiku.

Glavni javni oblaci, uključujući AWS, GCP i Azure, svi imaju platforme i usluge za upravljanje podacima za prosijavanje. Na primjer, Azure Synapse Analytics je Microsoftovo skladište podataka u oblaku, dok Azure Cosmos DB pruža sučelja za mnoge NoSQL pohrane podataka, uključujući Cassandru (stupčasti podaci), MongoDB (podaci ključ / vrijednost i podaci dokumenta) i Gremlin (podaci grafikona) .

Podatkovna jezera popularna su utovarna pristaništa za centraliziranje nestrukturiranih podataka za brzu analizu, a u tu svrhu možete odabrati Azure Data Lake, Amazon S3 ili Google Cloud Storage. Za obradu velikih podataka, AWS, GCP i Azure oblaci također imaju Spark i Hadoop ponude.

Analitičke platforme ciljaju strojno učenje i suradnju

S učitavanjem, čišćenjem i pohranom podataka, znanstvenici i analitičari podataka mogu započeti s obavljanjem analitike i strojnog učenja. Organizacije imaju mnogo mogućnosti, ovisno o vrstama analitike, vještinama analitičkog tima koji izvodi posao i strukturi osnovnih podataka.

Analitika se može izvoditi u samoposlužnim alatima za vizualizaciju podataka kao što su Tableau i Microsoft Power BI. Oba su alata usmjerena na znanstvenike podataka građana i otkrivaju vizualizacije, izračune i osnovnu analitiku. Ovi alati podržavaju osnovnu integraciju podataka i njihovo restrukturiranje, ali složenije premetanje podataka često se događa prije koraka analitike. Tableau Data Prep i Azure Data Factory popratni su alati koji pomažu integrirati i transformirati podatke.

Analitički timovi koji žele automatizirati više od puke integracije podataka i pripreme mogu se osvrnuti na platforme poput Alteryx Analytics Automation Process. Ova suradnička platforma od kraja do kraja povezuje programere, analitičare, znanstvenike podataka građana i znanstvenike podataka s automatizacijom tijeka rada i samoposlužnom obradom podataka, analitikom i mogućnostima obrade strojnog učenja.

Alan Jacobson, glavni službenik za analitiku i podatke u tvrtki Alteryx, objašnjava: „Pojava automatizacije analitičkih procesa (APA) kao kategorije naglašava novo očekivanje svakog radnika u organizaciji da bude radnik podataka. IT programeri nisu iznimka, a proširivost Alteryx APA platforme posebno je korisna za ove radnike koji rade sa znanjem. "

Postoji nekoliko alata i platformi usmjerenih na znanstvenike podataka kojima je cilj učiniti ih produktivnijima s tehnologijama poput Pythona i R, a istovremeno pojednostaviti mnoge operativne i infrastrukturne korake. Na primjer, Databricks je operativna platforma za znanost o podacima koja omogućuje postavljanje algoritama na Apache Spark i TensorFlow, dok istovremeno upravlja računalnim klasterima na AWS ili Azure oblaku. 

Sada neke platforme poput SAS Viya kombiniraju pripremu podataka, analitiku, predviđanje, strojno učenje, analitiku teksta i upravljanje modelima strojnog učenja u jednu platformu modelops. SAS operacionalizira analitiku i cilja znanstvenike podataka, poslovne analitičare, programere i rukovoditelje s cjelovitom suradničkom platformom.

David Duling, direktor istraživanja i razvoja za upravljanje odlukama u SAS-u, kaže: „Modelopove vidimo kao praksu stvaranja ponovljivog, revidiranog cjevovoda operacija za uvođenje sve analitike, uključujući AI i ML modele, u operativne sustave. Kao dio modelops-a, možemo koristiti moderne prakse devops-a za upravljanje kodovima, testiranje i praćenje. To pomaže poboljšati učestalost i pouzdanost uvođenja modela, što zauzvrat povećava okretnost poslovnih procesa izgrađenih na tim modelima. "

Dataiku je još jedna platforma koja nastoji pripremiti podatke, analitiku i strojno učenje za rastuće timove za znanost o podacima i njihove suradnike. Dataiku ima vizualni model programiranja koji omogućuje suradnju i prijenosnike kodova za naprednije programere SQL-a i Pythona.

Druge platforme za analitiku i strojno učenje vodećih dobavljača softvera za poduzeće žele donijeti analitičke mogućnosti u podatkovni centar i izvore podataka u oblaku. Primjerice, Oracle Analytics Cloud i SAP Analytics Cloud imaju za cilj centralizirati obavještajne podatke i automatizirati uvide kako bi se omogućile odluke od kraja do kraja.

Odabir platforme za analitiku podataka

Odabir alata za integraciju podataka, skladištenje i analitiku nekad je bio jednostavniji prije porasta velikih podataka, strojnog učenja i upravljanja podacima. Danas postoji kombinacija terminologije, mogućnosti platforme, operativnih zahtjeva, potreba upravljanja i ciljanih korisničkih osobina koje odabir platformi čine složenijim, pogotovo jer mnogi dobavljači podržavaju višestruke paradigme upotrebe. 

Tvrtke se razlikuju u analitičkim zahtjevima i potrebama, ali trebale bi potražiti nove platforme sa stajališta onoga što je već na snazi. Na primjer:

  • Tvrtke koje su imale uspjeha u programima znanosti o građanima i koje već imaju postavljene alate za vizualizaciju podataka možda će htjeti proširiti ovaj program automatizacijom analitičkih procesa ili tehnologijama pripreme podataka.
  • Poduzeća koja žele lanac alata koji znanstvenicima podataka omogućuju rad u različitim dijelovima poslovanja mogu razmotriti sveobuhvatne analitičke platforme s mogućnostima modula.
  • Organizacije s više, različitih pozadinskih podatkovnih platformi mogu imati koristi od oblačnih podatkovnih platformi za njihovo katalogiziranje i centralno upravljanje.
  • Tvrtke koje standardiziraju sve ili većinu podatkovnih mogućnosti na jednom javnom dobavljaču oblaka trebale bi istražiti ponuđene platforme integracije podataka, upravljanja podacima i analitike podataka.

Budući da analitika i strojno učenje postaju važna temeljna kompetencija, tehnolozi bi trebali razmotriti produbljivanje razumijevanja dostupnih platformi i svojih mogućnosti. Snaga i vrijednost analitičkih platformi samo će se povećati, kao i njihov utjecaj u cijelom poduzeću.