Današnje uloge u znanosti o podacima neće postojati za 10 godina

U narednom desetljeću uloga znanstvenika podataka kakvu poznajemo izgledat će vrlo različito nego danas. Ali ne brinite, nitko ne predviđa izgubljeni posao, samo promijenjeni posao.

Znanstvenici podataka bit će u redu - prema Zavodu za statistiku rada, predviđa se kako će uloga rasti do više od prosjeka do 2029. godine. Ali napredak u tehnologiji bit će poticaj za veliki pomak u odgovornostima znanstvenika podataka i u način na koji tvrtke pristupaju analitici u cjelini. A alati AutoML, koji pomažu automatizirati cjevovod strojnog učenja od sirovih podataka do upotrebljivog modela, vodit će ovu revoluciju.

Za 10 godina znanstvenici podataka imat će posve različite skupove vještina i alata, ali njihova će funkcija ostati ista: služiti kao sigurni i kompetentni tehnološki vodiči koji mogu razumjeti složene podatke za rješavanje poslovnih problema.

AutoML demokratizira znanost o podacima

Do nedavno su algoritmi i procesi strojnog učenja bili gotovo isključivo domena tradicionalnijih uloga u znanosti o podacima - onih s formalnim obrazovanjem i visokim diplomama ili koji su radili za velike tehnološke korporacije. Znanstvenici podataka odigrali su neprocjenjivu ulogu u svakom dijelu spektra razvoja strojnog učenja. No, s vremenom će njihova uloga postati više suradnička i strateška. Pomoću alata poput AutoML-a za automatizaciju nekih svojih akademskijih vještina znanstvenici podataka mogu se usredotočiti na usmjeravanje organizacija prema rješenjima poslovnih problema putem podataka.

To je na mnogo načina zato što AutoML demokratizira napore primjene strojnog učenja u praksi. Dobavljači od startupa do hiper skalera u oblaku lansirali su rješenja koja su programerima jednostavna za upotrebu i eksperimentiranje bez velike obrazovne ili iskustvene prepreke ulasku. Slično tome, neke su aplikacije AutoML dovoljno intuitivne i jednostavne da se netehnički radnici mogu okušati u stvaranju rješenja za probleme u vlastitim odjelima - stvarajući svojevrsnog „znanstvenika podataka o građanima“ unutar organizacija.

Da bismo istražili mogućnosti koje ove vrste alata otključavaju i za programere i za znanstvenike podataka, prvo moramo razumjeti trenutno stanje znanosti o podacima koje se odnosi na razvoj strojnog učenja. Najlakše je razumjeti kada se stavi na ljestvicu zrelosti.

Manje organizacije i tvrtke s tradicionalnijim ulogama zaduženim za digitalnu transformaciju (tj. Ne klasično obučeni znanstvenici za podatke) obično padaju na ovaj kraj ove ljestvice. Trenutno su najveći kupci izvanmrežnih aplikacija za strojno učenje, koje su usmjerenije prema publici koja nije upoznata sa zamršenošću strojnog učenja.

  • Pros: Ove su aplikacije po sistemu "ključ u ruke" obično jednostavne za primjenu, relativno jeftine i jednostavne za primjenu. Za manje tvrtke s vrlo specifičnim postupkom automatizacije ili poboljšanja na tržištu postoji vjerojatno nekoliko održivih opcija. Niska prepreka ulasku čini ove aplikacije savršenima za znanstvenike koji prvi put ulaze u strojno učenje. Budući da su neke od aplikacija toliko intuitivne, omogućuju čak i netehničkim zaposlenicima priliku da eksperimentiraju s automatizacijom i naprednim podatkovnim mogućnostima - potencijalno uvodeći vrijedan pješčanik u organizaciju.
  • Protiv: Ova klasa aplikacija za strojno učenje notorno je nefleksibilna. Iako ih je lako implementirati, nije ih lako prilagoditi. Kao takvi, određene razine točnosti mogu biti nemoguće za određene primjene. Uz to, ove se aplikacije mogu ozbiljno ograničiti oslanjanjem na prethodno obučene modele i podatke. 

Primjeri tih aplikacija uključuju Amazon Comprehend, Amazon Lex i Amazon Forecast od Amazon Web Services i Azure Speech Services i Azure Language Understanding (LUIS) od Microsoft Azure. Ovi su alati često dovoljni rastućim znanstvenicima za podatke da poduzmu prve korake u strojnom učenju i uvedu svoje organizacije dalje u spektar zrelosti.

Prilagodljiva rješenja s AutoML-om

Organizacijama s velikim, ali relativno uobičajenim skupovima podataka - misle da su podaci o transakcijama kupaca ili mjerni podaci marketinške e-pošte - treba više fleksibilnosti kada koriste strojno učenje za rješavanje problema. Unesite AutoML. AutoML poduzima korake tijeka ručnog strojnog učenja (otkrivanje podataka, istraživačka analiza podataka, podešavanje hiperparametara itd.) I sažima ih u podesivu hrpu.

  • Pros: AutoML aplikacije omogućuju pokretanje više eksperimenata na podacima u većem prostoru. Ali prava velesila AutoML-a je pristupačnost - mogu se graditi prilagođene konfiguracije i relativno lako usavršiti ulazi. Štoviše, AutoML nije napravljen isključivo s znanstvenicima koji obrađuju podatke kao publikom. Programeri također mogu lako petljati unutar pješčanika kako bi elemente strojnog učenja unijeli u svoje proizvode ili projekte.
  • Protiv : Iako se približi, ograničenja AutoML-a znače da će biti teško usavršiti točnost izlaza. Zbog toga znanstvenici s podacima koji drže stupnjeve drže diplomu često gledaju s visine na programe izrađene uz pomoć AutoML-a - čak i ako je rezultat dovoljno točan da riješi problem koji je u pitanju.

Primjeri tih aplikacija uključuju Amazon SageMaker AutoPilot ili Google Cloud AutoML. Znanstvenici podataka nakon desetljeća nesumnjivo će morati biti upoznati s alatima poput ovih. Poput programera koji vješti više programskih jezika, i znanstvenici podataka trebaju imati znanje s više AutoML okruženja da bi ih mogli smatrati vrhunskim talentom.

"Ručno valjana" i domaća rješenja za strojno učenje 

Najveća poduzeća na razini poduzeća i tvrtke iz Fortune 500 trenutno se razvijaju većina naprednih i zaštićenih aplikacija za strojno učenje. Znanstvenici podataka u tim organizacijama dio su velikih timova koji usavršavaju algoritme strojnog učenja koristeći mnoštvo povijesnih podataka tvrtke i grade te aplikacije od temelja. Prilagođene aplikacije poput ove moguće su samo uz znatna sredstva i talent, zbog čega su isplativost i rizici tako veliki.

  • Pros: Kao i svaka aplikacija izrađena od nule, i prilagođeno strojno učenje "je vrhunsko" i izgrađeno je na temelju dubokog razumijevanja trenutnog problema. Također je preciznije - makar samo uz male margine - od AutoML-a i gotovih rješenja za strojno učenje.
  • Protiv: Dobivanje prilagođene aplikacije za strojno učenje za postizanje određenih pragova točnosti može biti izuzetno teško i često zahtijeva težak rad timova znanstvenika podataka. Uz to, prilagođene opcije strojnog učenja najduže su i najskuplje se razvijaju.

Primjer ručno valjanog rješenja za strojno učenje započinje praznom Jupyterovom bilježnicom, ručno uvozi podatke, a zatim provodi svaki korak od istraživačke analize podataka do ručnog podešavanja modela. To se često postiže pisanjem prilagođenog koda pomoću okvira za strojno učenje otvorenog koda kao što su Scikit-learn, TensorFlow, PyTorch i mnogi drugi. Ovaj pristup zahtijeva visok stupanj iskustva i intuicije, ali može donijeti rezultate koji često nadmašuju i usluge strojnog učenja po sistemu ključ u ruke i AutoML.

Alati poput AutoML-a promijenit će uloge i odgovornosti u znanosti o podacima tijekom sljedećih 10 godina. AutoML preuzima teret razvoja strojnog učenja od nule s područja znanstvenika podataka, i umjesto toga stavlja mogućnosti tehnologije strojnog učenja izravno u ruke drugih rješavača problema. S vremenom oslobođenim da se usredotoče na ono što znaju - na podatke i na same ulaze - znanstvenici podataka će nakon deset godina poslužiti kao još vrijedniji vodiči za njihove organizacije.

Eric Miller služi kao viši direktor tehničke strategije u tvrtki Rackspace, gdje pruža strateško savjetodavno vodstvo s dokazanim iskustvom u izgradnji prakse u ekosustavu Amazonske partnerske mreže (APN). Uvjereni tehnološki lider s 20-godišnjim dokazanim uspjehom u poslovnim informatičkim tehnologijama, Eric je vodio nekoliko inicijativa za AWS i arhitekturu rješenja, uključujući program za procjenu AWS-a Well Architected Framework (WAF), Amazon EC2 za Windows Server AWS-ov program isporuke usluga i širok spektar AWS-a prepisuje za organizacije vrijedne više milijardi dolara.

-

New Tech Forum pruža mjesto za istraživanje i raspravu o novonastaloj tehnologiji poduzeća u neviđenoj dubini i širini. Izbor je subjektivan, zasnovan na našem odabiru tehnologija za koje vjerujemo da su važne i da najviše zanimaju čitatelje. ne prihvaća marketinške kolaterale za objavljivanje i zadržava pravo uređivanja cjelokupnog sadržaja. Pošaljite sve upite na [email protected]