Pregled: Google Cloud AutoML uistinu je automatizirano strojno učenje

Kada pokušavate automatski obučiti najbolji model strojnog učenja za svoje podatke, postoji AutoML ili automatizirano strojno učenje, a zatim postoji Google Cloud AutoML. Google Cloud AutoML je gornji dio. 

U prošlosti sam pregledao H2O Driverless AI, Amazon SageMaker i Azure Machine Learning AutoML. AI bez vozača automatski izvodi inženjering značajki i podešavanje hiperparametara i tvrdi da se izvodi kao i Kaggle master. Amazon SageMaker podržava optimizaciju hiperparametara. Azure Strojno učenje AutoML automatski prelazi kroz značajke, algoritme i hiperparametre za osnovne algoritme strojnog učenja; zasebna mogućnost ugađanja hiperparametara za Azure Machine Learning omogućuje vam pomicanje određenih hiperparametara za postojeći eksperiment.

To su dobri, ali Google Cloud AutoML ide na sasvim drugu razinu i prilagođava Google-ove duboko testirane duboke neuronske mreže s visokom točnošću za vaše označene podatke. Umjesto da započinje ispočetka kada trenira modele iz vaših podataka, Google Cloud AutoML implementira automatsko učenje dubokog prijenosa (što znači da započinje s postojeće duboke neuronske mreže obučene na drugim podacima) i pretraživanje neuronske arhitekture (što znači da pronalazi pravu kombinaciju dodatnih mrežni slojevi) za prijevod jezičnog para, klasifikaciju prirodnog jezika i klasifikaciju slika.

U svakom području Google već ima jednu ili više unaprijed obučenih usluga temeljenih na dubokim neuronskim mrežama i ogromnim skupovima označenih podataka. Ovi podaci mogu dobro funkcionirati za vaše podatke nepromijenjeni i trebali biste ih testirati kako biste uštedjeli vrijeme i novac. Ako ove usluge ne rade ono što vam treba, Google Cloud AutoML vam pomaže stvoriti model koji to čini, bez potrebe da znate kako izvoditi učenje prijenosa ili čak kako stvarati neuronske mreže.

Transfer učenje nudi dvije velike prednosti u odnosu na treniranje neuronske mreže od nule. Prvo, za obuku je potrebno puno manje podataka, jer je većina slojeva mreže već dobro obučena. Drugo, radi puno brže, jer optimizira samo završne slojeve.

Google Cloud AutoML prijevod

Tako, na primjer, možete trenirati protiv 1.000 dvojezičnih parova rečenica u sat ili dva pomoću Google Cloud AutoML Translation prijenosa učenja. Osnovnoj neuronskoj mreži koja se prilagođava, NMT, trebalo je stotine do tisuće sati da se istrenira za svaki jezični par na velikom broju CPU-a i GPU-a. Napominjemo da satnica za obuku prilagođenog modela prevođenja trenutno iznosi 76 USD.

Vodič za početnike za AutoML prijevod objašnjava osnove onoga što Google Cloud AutoML Translation može učiniti i zašto biste ga koristili. U osnovi, on pročišćava postojeći opći prijevodni model za nišu. Ne morate provoditi nikakvu obuku za općeniti prijevod stotinjak jezika koje Google već podržava, ali trebat ćete pokrenuti učenje transfera ako želite stvoriti mrežu za prijevod za specijalizirani rječnik ili upotrebu. Jedan od primjera koje Google spominje je prevođenje vremenski osjetljivih financijskih dokumenata u stvarnom vremenu. Prijevodi opće namjene neće uvijek koristiti točne umjetničke izraze za financije.

 Postavljanje treninga za Google Cloud AutoML Translation postupak je u pet koraka, kao što je prikazano na donjim snimkama zaslona, ​​nakon što pripremite datoteku s parovima rečenica. Upotrijebio sam 8720 englesko-španjolskih parova za upute u aplikacijama koje je pružio Google u brzom startu AutoML Translation, oblikovanu kao datoteka s vrijednostima odvojenim karticama. Google Cloud AutoML Translation također podržava format XX-Memory Memory eXchange (TMX) za parove rečenica.

Primijetit ćete da ne postoji opcija za kontrolu hardvera (CPU-a, GPU-a, TPU-a i memorije) koji se koristi za izvođenje treninga. To je namjerno: trening će koristiti ono što treba. Također ne postoje opcije za upravljanje slojevima neuronske mreže koji se dodaju modelu, brojem epoha koje treba pokrenuti ili kriterijima zaustavljanja.

Kada je obuka za model završena, možete vidjeti poboljšanje (ako sve bude u redu) BLEU rezultata u odnosu na osnovni model i pokušati s modelom predvidjeti. Ovaj je trening trajao 0,9 sati (manje od predviđenog) i koštao je 68,34 dolara.

Google Cloud AutoML Prirodni jezik

Google Natural Language API uzima tekst i predviđa entitete, sentiment, sintaksu i kategorije (s unaprijed definiranog popisa). Ako se vaš problem klasifikacije teksta ne uklapa ni u jedan od njih, možete dostaviti označeni skup izjava i koristiti Google Cloud AutoML Natural Language za izradu prilagođenog klasifikatora.

Da biste postavili prirodni jezik AutoML za trening, trebate izvor podataka, označiti ih, pripremiti kao CSV datoteku i pokrenuti trening. Također možete koristiti korisničko sučelje AutoML Natural Language za prijenos i označavanje podataka ako želite.

Kad je obuka za model završena, možete vidjeti matricu preciznosti, opoziva i zbunjenosti modela. Također možete prilagoditi prag rezultata za željeni kompromis preciznosti / opoziva. Da biste smanjili lažne negative, optimizirajte ih za opoziv. Da biste smanjili lažne pozitivne rezultate, optimizirajte za preciznost.

Ovaj je trening trajao 3,63 sata (otprilike koliko je predviđeno) i koštao je 10,88 dolara.

Google Cloud AutoML Vision

Google Cloud Vision API klasificira slike u tisuće unaprijed definiranih kategorija, otkriva pojedinačne predmete i lica unutar slika te pronalazi i čita ispisane riječi sadržane u slikama. Google Cloud AutoML Vision omogućuje vam definiranje i osposobljavanje vlastitog popisa kategorija. Neke stvarne aplikacije uključuju otkrivanje oštećenja na vjetroagregatima na fotografijama dronova i klasificiranje materijala koji se mogu reciklirati za gospodarenje otpadom.

Da biste postavili Google Cloud AutoML Vision skup podataka, morate izvoriti najmanje 100 slika za svaku kategoriju i označiti ih u CSV datoteci. Sve slike i CSV datoteka moraju se nalaziti u segmentu Google Cloud Storagea.

Ovaj sam trening postavio za trčanje maksimalno sat vremena, što je besplatno za do 10 modela mjesečno. Bio sam ugodno iznenađen kad sam vidio dobre rezultate s besplatnog treninga i nisam se trudio nastaviti s treningom kako bih poboljšao preciznost i opoziv.

Google Cloud AutoML pruža prikladne mogućnosti za izvođenje ciljanih prijevoda, prilagođenu klasifikaciju teksta i prilagođenu klasifikaciju slika. Svaki od ovih API-ja dobro funkcionira ako mu date dovoljno točno označenih podataka i treba vam puno manje vremena i vještina od izrade vlastitog modela neuronske mreže ili čak vlastitog modela učenja za prijenos. Pomoću Google Cloud AutoML-a zapravo stvarate modele TensorFlow, a da pritom ne morate znati ništa o TensorFlowu, Pythonu, arhitekturi neuronske mreže ili hardveru za obuku.

Postoji mnogo načina kako pogrešno pripremiti podatke, ali na sreću sva tri API-ja provjeravaju najčešće greške, kao što je premalo ili previše primjera za bilo koju kategoriju. Dijagnostika prikazana nakon treninga daje vam dobru ideju o tome kako dobro funkcionira vaš model, a modele možete lako prilagoditi dodavanjem više označenih podataka o treningu i ponovnim izvođenjem treninga.

-

Cijena: Google Cloud AutoML Translation: Trening košta 76,00 USD po satu, prijevod 80 USD po milijunu znakova nakon prvih 500.000. Google Cloud AutoML Natural Language: Trening košta 3,00 USD po satu, klasifikacija 5 USD za tisuću tekstualnih zapisa nakon prvih 30.000. Google Cloud AutoML Vision: Trening košta 20 USD na sat nakon prvog sata, klasifikacija 3 USD na tisuću slika nakon prvih tisuću. 

Platforma: Google Cloud Platform