4 razloga zbog kojih projekti velikih podataka propadaju i 4 načina za uspjeh

Projekti velikih podataka su, pa, velike veličine i opsega, često vrlo ambiciozni i, prečesto, potpuni neuspjesi. Gartner je 2016. procijenio da je 60 posto projekata velikih podataka propalo. Godinu dana kasnije, analitičar Gartnera Nick Heudecker rekao je da je njegova tvrtka bila "previše konzervativna" sa svojom procjenom od 60 posto i da je stopa neuspjeha bila blizu 85 posto. Danas kaže da se ništa nije promijenilo.

Gartner nije usamljen u toj procjeni. Dugogodišnji izvršni direktor Microsofta i (donedavno) izvršni direktor tvrtke Snowflake Computing Bob Muglia rekao je analitičkoj stranici Datanami: „Ne mogu pronaći sretnog kupca Hadoopa. To je nekako jednostavno. ... Broj kupaca koji su stvarno uspješno pripitomili Hadoop vjerojatno je manji od 20, a možda i manji od deset. To je samo ludost s obzirom na to koliko je dugo taj proizvod, ta tehnologija na tržištu i koliko je energije u industriji uloženo u to. " Hadoop je, naravno, motor koji je pokrenuo maniru velikih podataka.

Drugi ljudi upoznati s velikim podacima također kažu da je problem i dalje stvaran, ozbiljan i nije u potpunosti tehnološki. Zapravo, tehnologija je manji uzrok neuspjeha u odnosu na stvarne krivce. Evo četiri ključna razloga zbog kojih projekti velikih podataka propadaju i četiri ključna načina na koja možete uspjeti.

Problem s velikim podacima br. 1: Loša integracija

Heudecker je rekao da iza neuspjeha velikih podataka stoji jedan glavni tehnološki problem, a to je integriranje izoliranih podataka iz više izvora kako bi se stekli uvidi koje tvrtke žele. Izgradnja veza sa siledžijskim, naslijeđenim sustavima jednostavno nije jednostavna. Troškovi integracije su pet do deset puta veći od troškova softvera, rekao je. „Najveći je problem jednostavna integracija: kako povezivati ​​više izvora podataka kako biste postigli nekakav ishod? Mnogi idu putem jezera podataka i misle ako se sve povežem s nečim čarobnim. To nije slučaj ”, rekao je.

Tihi podaci dio su problema. Klijenti su mu rekli da su podatke iz sustava evidencije izvukli u zajedničko okruženje poput podatkovnog jezera i nisu mogli shvatiti što vrijednosti znače. "Kad uvlačite podatke u podatkovno jezero, kako znate što znači taj broj 3?" Pitao je Heudecker.

Budući da rade u silosima ili stvaraju podatkovna jezera koja su samo močvare podataka, samo grebu površinu onoga što bi mogli postići, rekao je Alan Morrison, viši istraživač u PwC-u. „Oni ne razumiju sve odnose u podacima koje treba minirati ili iz njih izvući i učiniti ih eksplicitnima kako bi strojevi mogli adekvatno protumačiti te podatke. Moraju stvoriti sloj grafa znanja kako bi strojevi mogli interpretirati sve podatke instance koji su mapirani ispod. Inače, upravo ste dobili podatkovno jezero koje je podatkovna močvara ”, rekao je.

Problem velikih podataka br. 2: Nedefinirani ciljevi

Pomislili biste da bi većina ljudi koji se bave projektom velikih podataka zapravo imala na umu cilj, ali iznenađujući broj nema. Oni samo pokreću projekt s ciljem kao naknadnim razmišljanjem.

“Morate dobro riješiti problem. Ljudi misle da mogu povezati strukturirane i nestrukturirane podatke i dobiti uvid koji vam treba. Morate problem definirati unaprijed. Kakav uvid želite dobiti? Jasno definira problem i definira ga unaprijed ”, rekao je Ray Christopher, voditelj marketinga proizvoda u tvrtki Talend, softverskoj tvrtki za integraciju podataka.

Joshua Greenbaum, glavni analitičar u Enterprise Application Consultingu, rekao je da je dio onoga što je narušilo i velike podatke i projekte skladištenja podataka glavni vodiči koji su obično akumulacija velike količine podataka, a ne rješavanje zasebnih poslovnih problema.

„Ako skupite velike količine podataka, dobit ćete izvatke podataka. Ja to zovem sanitarna deponija. Odlagališta nisu dobro mjesto za pronalaženje rješenja ”, rekao je Greenbaum. "Uvijek kažem klijentima da odluče koji diskretni poslovni problem treba prvo riješiti i poduzmu to, a zatim promatraju kvalitetu dostupnih podataka i rješavaju problem s podacima nakon što se utvrdi poslovni problem."

„Zašto većina projekata velikih podataka propada? Za početak, većini vođa projekata velikih podataka nedostaje vizija ”, rekao je Morrison iz PwC-a. “Poduzeća su zbunjena zbog velikih podataka. Većina razmišlja samo o numeričkim podacima ili NLP-u i mehanizmima za prepoznavanje, a to je jednostavno rukovanje tekstom i druge vrste prepoznavanja uzoraka. "

Problem velikih podataka br. 3: Jaz u vještinama

Tvrtke prečesto misle da će se vlastite vještine koje su izgradile za skladištenje podataka pretočiti u velike podatke, kad to očito nije slučaj. Za početak, skladištenje podataka i veliki podaci obrađuju podatke na potpuno suprotan način: Skladištenje podataka radi shemu na upisu, što znači da se podaci čiste, obrađuju, strukturiraju i organiziraju prije nego što ikad odu u skladište podataka.

U velikim se podacima akumuliraju i primjenjuje shema za čitanje, gdje se podaci obrađuju dok se čitaju. Dakle, ako se obrada podataka vraća s jedne metodologije na drugu, možete se kladiti da su to i vještine i alati. I to je samo jedan primjer.

„Vještine će uvijek biti izazov. Ako govorimo o velikim podacima za 30 godina, i dalje će biti izazov ”, rekao je Heudecker. “Mnogi ljudi vješaju kapu na Hadoop. Moji klijenti izazivaju pronalaženje Hadoop resursa. Spark je malo bolji jer je taj stog manji i lakši za treniranje. Hadoop je na desetke softverskih komponenti. "

Problem velikih podataka br. 4: Jaz u tehnološkoj generaciji

Projekti velikih podataka često uzimaju iz starijih silosa podataka i pokušavaju ih spojiti s novim izvorima podataka, poput senzora ili web prometa ili društvenih medija. Za to nije u potpunosti kriva tvrtka koja je te podatke prikupljala u vremenu prije ideje o analizi velikih podataka, ali svejedno predstavlja problem.

"Gotovo najveća vještina koja nedostaje je vještina razumijevanja kako spojiti ove dvije dionice kako bi ih natjerali da zajedno rade na rješavanju složenih problema", rekao je savjetnik Greenbaum. „Silosi za podatke mogu biti prepreka projektima velikih podataka jer ne postoji ništa standardno. Dakle, kad počnu razmatrati planiranje, otkrivaju da ti sustavi nisu implementirani na bilo koji način da bi se ti podaci ponovno koristili ”, rekao je.

"S različitim arhitekturama obradu trebate raditi drugačije", rekao je Talendov Christopher. „Razlike u tehničkim vještinama i arhitekturi bili su čest razlog zašto ne možete uzeti trenutne alate za lokalno skladište podataka i integrirati ih s projektom velikih podataka - jer će te tehnologije postati preskupe za obradu novih podataka. Dakle, trebate Hadoopand Spark i morate naučiti nove jezike. "

Rješenje za velike podatke br. 1: unaprijed planirajte

To je stari klišej, ali primjenjiv ovdje: Ako ne uspijete planirati, planirajte neuspjeh. "Uspješne tvrtke su one koje imaju ishod", rekao je Gartnerov Heudecker. “Odaberite nešto malo, dostižno i novo. Ne uzimajte naslijeđene slučajeve upotrebe jer imate ograničenja. "

"Moraju prvo razmisliti o podacima i modelirati svoje organizacije na strojno čitljiv način kako bi podaci služili toj organizaciji", rekao je Morrison iz PwC-a.

Rješenje za velike podatke br. 2: Radite zajedno

Prečesto su dionici izostavljeni iz projekata velikih podataka - baš ljudi koji bi koristili rezultate. Ako svi dionici surađuju, mogu prevladati mnoge prepreke, rekao je Heudecker. "Ako vješti ljudi rade zajedno i rade s poslovnom stranom kako bi postigli djelotvoran ishod, to može pomoći", rekao je.

Heudecker je napomenuo da tvrtke koje uspijevaju u velikim podacima ulažu u potrebne vještine. To najviše vidi u tvrtkama koje se bave podacima, poput financijskih usluga, Ubera, Lyfta i Netflixa, gdje se bogatstvo tvrtke temelji na posjedovanju dobrih podataka koji mogu djelovati.

„Neka to bude timski sport koji će vam pomoći u kuriranju i prikupljanju podataka te u njihovom čišćenju. To bi moglo povećati i integritet podataka ”, rekao je Talendov Christopher.

Rješenje za velike podatke br. 3: Fokus

Čini se da ljudi razmišljaju da projekt velikih podataka mora biti masivan i ambiciozan. Kao i sve što učite prvi put, najbolji način za uspjeh je započeti s malim, a zatim se postupno širiti u ambicijama i opsegu.

"Trebali bi vrlo usko definirati što rade", rekao je Heudecker. "Trebali bi odabrati domenu problema i posjedovati je, poput otkrivanja prijevara, mikrosegmentiranja kupaca ili otkrivanja novog proizvoda koji će predstaviti na tisućljetnom tržištu."

"Na kraju dana, morate zatražiti uvid koji želite ili poslovni proces treba digitalizirati", rekao je Christopher. „Tehnologiju ne bacate samo na poslovni problem; morate to definirati unaprijed. Podatkovno jezero je nužnost, ali ne želite prikupljati podatke ako ih nitko od poduzeća neće koristiti. "

U mnogim slučajevima to također znači ne pretjerano napuhavanje vlastite tvrtke. “U svakoj tvrtki koju sam ikad proučavao postoji samo nekoliko stotina ključnih koncepata i odnosa na kojima cjelokupno poslovanje radi. Jednom kad to shvatite, shvatite da su svi ovi milijuni razlika samo male varijacije tih nekoliko stotina važnih stvari ”, rekao je Morrison iz PwC-a. „Zapravo otkrivate da mnoge male varijacije uopće nisu varijacije. To su stvarno iste stvari s različitim imenima, različitim strukturama ili različitim oznakama ”, dodao je.

Rješenje za velike podatke br. 4: Jettison naslijeđe

Iako ćete možda htjeti upotrijebiti te terabajte podataka prikupljenih i pohranjenih u vašem skladištu podataka, činjenica je da biste možda mogli bolje poslužiti samo usredotočenjem na novo prikupljene podatke u sustavima za pohranu dizajniranim za velike podatke i dizajniranim da budu bez upotrebe.

"Svakako bih savjetovao da se ne mora nužno pridržavati postojeće tehnološke infrastrukture samo zato što vaša tvrtka ima licencu za to", rekao je savjetnik Greenbaum. “Često novi složeni problemi mogu zahtijevati nova složena rješenja. Vraćanje na stare alate oko korporacije deset godina nije pravi put. Mnoge tvrtke koriste stare alate i to ubija projekt. "

Morrison o = primijetio je: "Poduzeća se moraju prestati zapletati u vlastito donje rublje i samo izbaciti naslijeđenu arhitekturu koja stvara više silosa." Također je rekao da trebaju prestati očekivati ​​od dobavljača da umjesto njih riješe njihove složene sistemske probleme. “Čini se da mnogi desetljećima pretpostavljaju da se mogu spasiti od problema s velikim podacima. Bilo koji problem velikih podataka sistemski je problem. Kad je riječ o bilo kakvoj složenoj promjeni sustava, morate izgraditi svoj izlaz “, rekao je.