Projekt Oxford: Microsoft poslužuje API-je za inteligentne aplikacije

Microsoft je prošlog proljeća najavio Project Oxford, skup SDK-ova i API-ja koji programerima omogućuju izgradnju "inteligentnih" aplikacija bez potrebe za učenjem strojnog učenja. Koristeći Oxfordove API-je za lice, govor i vid, programeri mogu stvoriti programe koji prepoznaju značajke lica, analiziraju slike ili izvode prevođenje u govor u tekst ili tekst u govor.

U intervjuu za urednika Large Paula Krilla, Microsoftov Ryan Galgon, viši voditelj programa odgovoran za platformu i tehnologije Project Oxford, govorio je o ciljevima iza Oxforda, ističući njegov potencijal na Internetu stvari.

: Tko gradi aplikacije za Oxford? Kome je namijenjen Oxford?

Galgon: Dosta ljudi je ušlo i prijavilo se za API usluge. Točni brojevi [nisu] nešto u što se mogu upustiti, ali stvorili smo puno Azure računa, puno registracija putem našeg Microsoftovog Azure tržišta. Ljudi šutiraju gume za usluge, kao i posežu za većim korištenjem usluga. Trenutno su svi ponuđeni kao ograničena besplatna razina na mjesečnoj osnovi, a mi radimo na tome da to otvorimo jer smo dobili povratne informacije o promjenama koje programeri žele primijeniti na API-jevima i modelima.

Sve je to na više platformi, u smislu da je to skup web usluga kojima se pristupa prvenstveno putem REST API sučelja. Sve što se može obratiti web mjestu može nazvati ove pozadinske usluge. Pružamo set SDK-ova koji obuhvaćaju one REST pozive i čine ih lakšim za upotrebu na klijentima kao što su Android i Windows i iOS. Sve što može uputiti HTTP web poziv može nazvati službe.

: Predviđate li da se Oxford prvenstveno koristi na mobilnim uređajima ili na radnim površinama sustava Windows?

Galgon:  To će prije svega biti kombinacija vjerojatno mobilnih i IoT uređaja. U smislu da kada ljudi koriste radne površine, velika većina slučajeva koje vidim, vi sjedite tamo, imate tipkovnicu i miša i tu vrstu unosa. Ali kada imate mobilni telefon, snimate fotografije, video i audio. Toliko je lakše i prirodnije to snimiti malim uređajem. [Koristit će se tehnologija Project Oxford] gdje će dominantan ulazni slučaj biti prirodni podaci, ne samo brojevi, već neka vrsta vizualnih ili audio podataka.

: Recite nam više o tim API-ima. Koje su stvari koje programeri mogu učiniti?

Galgon: Budući da želimo doći do što većeg broja programera, zaista smo uložili puno truda kako bismo ih učinili vrlo jednostavnima za upotrebu, [za] stvari poput otkrivanja lica ili računalnog vida, kategorizacije slika. Te stvari su obučeni i modelirani, a grade ih ljudi s dugogodišnjim istraživačkim iskustvom na tim mjestima i ne želimo da programeri moraju postati stručnjaci za računalni vid. Zaista smo pokušali reći: "Gle, izradit ćemo najbolji model koji možemo stvoriti i učiniti ga dostupnim te učiniti dostupnim u tri retka koda za vas."

Ne mogu govoriti o tome kako vanjski partneri gledaju na korištenje Oxfordovih API-ja, ali glavni na kojem je Microsoft radio, a možda ste i vidjeli, prvi je bio stranica How-old.net za predviđanje dobi i spolova. Tada smo imali TwinsorNot.net, a to je dobilo dvije fotografije, koliko su ti ljudi slični? To su bili dobri primjeri Face API-ja. Posljednji, koji je koristio Face API i neke govorne API-je, bio je projekt Windows 10 IoT u kojem je napisano nekoliko postova na blogu o tome gdje ste licem mogli otključati vrata i razgovarati s vratima - ili bravom, u tom slučaju. Mislim da su to tri primjera na kojima je Microsoft radio kako bi vam pokazao da postoji vrsta aplikacije koja se može izraditi i podijeliti s drugim ljudima.

: U skladu s tim REST API-jevima, što Oxforda označava?

Galgon: Jezgra su strojno naučeni modeli koje smo izgradili za stvari poput govora u tekst. Bilo da mu pristupate putem REST API-ja - ili putem govora u tekst, možete mu pristupiti i putem veze s web utičnicom - čarobna ili moćna stvar ovog modela koji može snimiti zvuk nekoga tko govori i jezik da je u i prevedite to u tekstualni format. To je glavna stvar zbog koje Oxford krči cijelu.

: Zašto je Project Oxford odvojen od projekta Azure Machine Learning?

Galgon:  U Azure strojnom učenju jedna od glavnih komponenti je Azure Studio za strojno učenje, gdje ljudi mogu ući sa svojim podacima, izvesti eksperiment, osposobiti vlastiti model, a zatim ugostiti taj model. S Oxfordom, ovo je unaprijed izgrađeni model koji ima Microsoft, model koji ćemo neprestano poboljšavati i dopuštamo ljudima da ga koriste preko ovih REST sučelja.

: Kakvu vrstu korporativne poslovne upotrebe vidite za Project Oxford? Koji je poslovni slučaj za Oxfordove aplikacije?

Galgon:U ovom trenutku ne postoje konkretni partneri o kojima bih stvarno mogao razgovarati, ali mislim da je jedan od slučajeva za koje smo vidjeli veliko zanimanje, gdje osobno vidim puno slučajeva korištenja, kada je riječ o Internetu stvari- povezani uređaji. Kad pogledam način na koji ljudi gledaju na izgradnju IoT uređaja, nemate tipkovnicu i miša, a često čak ni pravi monitor povezan sa svim tim uređajima, ali tamo je lako zalijepiti mikrofon i prilično je jednostavno da i tamo zalijepite kameru. Ako kombinirate nešto poput govornih API-ja i LUIS-a (Language Understanding Intelligent Service), a zatim uređaj koji ima samo mikrofon i nema drugog načina unosa, sada možete s njim razgovarati, reći mu što želite učiniti, prevesti to u skup strukturiranih radnji i iskoristite to u pozadini.Tu mislim da ćemo vidjeti puno slučajeva upotrebe za Oxford API-je.

: Spomenuli ste iOS i Android. Kakva je primanja na tim platformama?

Galgon: Izrađivanjem API-ja RESTful i pružanjem ovih omota za njih, definitivno smo vidjeli ljude kako te omote preuzimaju i koriste. No na kraju se dogodi: "Evo omotača Java jezika oko web pozivatelja", "Evo omotača Objective-C oko web poziva." Nemamo puno uvida u to koji je točno uređaj koji upućuje poziv.

: Hoće li Oxford biti open source?

Galgon: Ne planiramo raditi s otvorenim izvorima osnovnih modela i nemam što podijeliti s tim jer modele s vremenom ažuriramo. SDK-ovi koje pružamo, budući da su omoti oko onih REST poziva, izvorni kod je tamo i dostupan je za preuzimanje s bilo koga danas s web mjesta. Ali opet, to je skriveni omot o stvarima i zapravo smo vidjeli ljude na MSDN forumima koji su oko sebe pružali isječke koda na različitim jezicima.

: Kako Microsoft planira zaraditi od Oxforda?

Galgon: API-ji na tržištu danas su besplatni za ograničenu upotrebu, tako da mjesečno dobivate 5000 API transakcija. To je jedini plan koji imamo sada na raspolaganju. U budućnosti ćemo izvoditi plaćene planove na temelju upotrebe API-ja.

: Što je sljedeće za Oxford?

Galgon: Odavde idemo, zapravo su tri područja. Prvo područje odnosi se na ažuriranje i poboljšanje postojećih modela. Dobili smo povratne informacije od programera [o tome kako] jedan od API-ja možda neće dobro funkcionirati s određenim vrstama slika. Tamo ćemo poboljšati temeljni model.

Jedna od ostalih stvari koje ćemo raditi je da ćemo stalno povećavati broj značajki koje se vraćaju s modela. Danas vam Face API daje predviđenu dob i predviđeni spol. Vidjeli smo puno zahtjeva za mogućnost prepoznavanja drugog sadržaja na slikama.

Treće područje je da ćemo proširiti portfelj API-ja koje imamo. Danas ih imamo četvero, ali definitivno nismo gotovi. Ne mislimo da je cijeli prostor koji želimo pružiti ili alati koje želimo pružiti još potpun. Nastavit ćemo dodavati nove API-je koji se mogu nositi s različitim vrstama podataka ili mogu pružiti vrlo različite vrste prirodnog razumijevanja podataka od onoga što danas pružamo.