Programmēšana

Oksfordas projekts: Microsoft apkalpo API viedajām lietotnēm

Pagājušā gada pavasarī korporācija Microsoft paziņoja par projektu Oxford, SDK un API kopumu, kas ļauj izstrādātājiem veidot “inteliģentas” lietojumprogrammas, nemācoties mašīnmācīšanās. Izmantojot Oksfordas sejas, runas un redzes API, izstrādātāji var izveidot lietojumprogrammas, kas atpazīst sejas īpašības, analizē attēlus vai veic runas teksta vai teksta runā tulkojumus.

Intervijā ar lielo redaktoru Paulu Krilu, Microsoft Ryan Galgon, vecākais programmas vadītājs, kas atbild par Project Oxford platformu un tehnoloģijām, runāja par Oksfordas mērķiem, uzsverot tā potenciālu lietu internetā.

: Kas veido Oksfordas lietojumprogrammas? Kam domāta Oksforda?

Galgons: Mums bija daudz cilvēku, kas ienāca un reģistrējās API pakalpojumiem. Precīzie skaitļi [nav] kaut kas, kurā es varu iekļūt, taču mums ir izveidots daudz Azure kontu, daudz reģistrāciju, izmantojot mūsu Microsoft Azure Marketplace. Cilvēki spārda riepas pakalpojumiem, kā arī ķeras pie pakalpojumu plašākas izmantošanas. Pašlaik tie visi tiek piedāvāti kā ierobežots bezmaksas līmenis katru mēnesi, un mēs strādājam, lai to atvērtu, kad esam saņēmuši atsauksmes par to, kādas izmaiņas izstrādātāji vēlas redzēt API un modeļos.

Tas viss ir starpplatformu ziņā, ka tas ir tīmekļa pakalpojumu kopums, kuram galvenokārt piekļūst, izmantojot REST API saskarni. Viss, kas var sazināties ar vietni, var piezvanīt šiem aizmugures pakalpojumiem. Mēs piedāvājam SDK komplektu, kas aptver šos REST zvanus un atvieglo to izmantošanu tādos klientos kā Android un Windows un iOS. Viss, kas var veikt HTTP tīmekļa zvanu, var piezvanīt dienestiem.

: Vai jūs paredzat, ka Oksfordu galvenokārt izmanto mobilajās ierīcēs vai Windows darbvirsmās?

Galgons: Tas galvenokārt būs mobilo ierīču un IoT ierīču sajaukums. Šajā ziņā, ja cilvēki izmanto galddatorus, es redzu, ka lielākā daļa lietojumu jūs sēžat, jums ir tastatūra un pele un šāda veida ievade. Bet, ja jums ir mobilais tālrunis, jūs tverat fotoattēlus, video un audio. Ir tik daudz vieglāk un dabiski to notvert ar niecīgu ierīci. [Tiks izmantota projekta Oksfordas tehnoloģija], kur dominējošais ievades gadījums būs dabiski dati, ne tikai skaitļi, bet kaut kādi vizuālo vai audio datu veidi.

: Pastāstiet mums vairāk par šīm API. Kādas ir lietas, ko izstrādātāji var darīt?

Galgons: Tā kā mēs vēlamies sasniegt pēc iespējas vairāk izstrādātāju, mēs patiešām esam ieguldījuši daudz darba, lai padarītu tos ļoti viegli lietojamus [tādām lietām kā sejas noteikšana vai redze datorā, attēlu kategorizēšana. Šīs lietas ir apmācījušas un modelējušas, uzbūvējušas cilvēki ar ilggadēju dziļu pētījumu pieredzi šajās vietās, un mēs negribam, lai izstrādātājiem būtu jākļūst par datoru redzes ekspertiem. Mēs patiešām esam mēģinājuši pateikt: "Skatīsimies, mēs izveidosim labāko modeli, ko mēs varam izveidot, padarīsim to pieejamu jums un padarīsim to pieejamu trīs koda rindiņās."

Es nevaru runāt par to, kā ārējie partneri raugās, izmantojot Oksfordas API, bet galvenie, pie kuriem Microsoft ir strādājis, varbūt esat redzējuši, pirmā bija vietne How-old.net vecumu prognozēšanai un dzimumu. Tad mums bija TwinsorNot.net, un tam tika dotas divas fotogrāfijas, cik līdzīgi ir šie cilvēki? Šie abi bija labi API API piemēri. Pēdējais, kurā tika izmantota Face API un dažas Speech API, bija Windows 10 IoT projekts, kurā tika rakstīti daži emuāra ziņojumi par to, kur jūs varējāt ar seju atslēgt durvis un sarunāties ar durvīm - vai slēdzeni, tādā gadījumā. Es domāju, ka šie ir trīs piemēri, pie kuriem Microsoft ir strādājis, lai parādītu, ka šeit ir lietojumprogrammas veids, kuru var izveidot un koplietot ar citiem cilvēkiem.

: Kas liek Oksfordai atzīmēt šo REST API?

Galgons: Galvenais ir mašīnmācīti modeļi, kurus mēs izveidojām tādām lietām kā runas teksts. Neatkarīgi no tā, vai piekļūstat tam, izmantojot REST API - vai izmantojot runas tekstu, varat piekļūt arī caur tīmekļa kontaktligzdu - šī burvība vai spēcīgā lieta ir šis modelis, kas var uztvert kāda runājoša cilvēka valodu un valodu ka tas ir un tulkot to teksta formātā. Tas ir galvenais, kas liek Oksfordai atzīmēties kopumā.

: Kāpēc Oksfordas projekts ir nošķirts no Azure Machine Learning projekta?

Galgons: Programmā Azure Machine Learning viena no galvenajām sastāvdaļām ir Azure Machine Learning Studio, kur cilvēki var ienākt ar saviem datiem, izveidot eksperimentu, apmācīt savu modeli un pēc tam mitināt šo modeli. Izmantojot Oksfordu, tas ir Microsoft iepriekš sagatavots modelis, kuru mēs turpināsim pilnveidot arī turpmāk, un mēs ļaujam cilvēkiem izmantot šo modeli, izmantojot šīs REST saskarnes.

: Kāda veida uzņēmējdarbību izmantojat projektā Oxford? Kāda ir uzņēmējdarbība Oksfordas lietojumprogrammām?

Galgons: Pašlaik nav īpašu partneru, par kuriem es patiešām varētu runāt, bet es domāju, ka viens no gadījumiem, par kuru mēs esam pieredzējuši lielu interesi, kur es personīgi redzu daudz lietojuma gadījumu, ir jautājums par lietu internetu. pievienotās ierīces. Kad es skatos, kā cilvēki skatās uz IoT ierīču veidošanu, jums nav tastatūras un peles un bieži vien pat reāla monitora, kas saistīts ar visām šīm ierīcēm, taču tur ir viegli pielīmēt mikrofonu un tas ir diezgan viegli tur arī pielīmēt kameru. Ja apvienojat kaut ko līdzīgu runas API un LUIS (Language Understanding Intelligent Service), tad ierīcei, kurai ir tikai mikrofons un nav citu ievades veidu, tagad varat ar to runāt, pateikt, ko vēlaties darīt, tulkot to strukturētu darbību kopumu un izmantojiet to aizmugurē. Tieši tur es domāju, ka mēs redzēsim daudzus Oksfordas API izmantošanas gadījumus.

: Jūs pieminējāt iOS un Android. Kāds ir bijis šo platformu pielietojums?

Galgons: Padarot API RESTful un nodrošinot šos iesaiņotājus, mēs noteikti esam redzējuši, kā cilvēki lejupielādē šos iesaiņotājus, tos izmantojot. Bet dienas beigās tas notiek šādi: "Šeit ir Web valodas iesaiņotājs ap tīmekļa zvanītāju", "Šeit ir Web-Call Web-Call." Mums nav daudz ieskatu, kāda ir precīza ierīce, ar kuru tiek veikts zvans.

: Vai Oksforda būs atvērtā koda programma?

Galgons: Mēs neplānojam atvērt galvenos modeļus, un man par to nav ko dalīties, jo laika gaitā modeļus turpinām atjaunināt. Mūsu piedāvātie SDK, jo tie ir iesaiņoti ap šiem REST zvaniem, ir pieejams, un avota kods ir pieejams un šodien ikvienam ir pieejams lejupielādei no vietnes. Bet atkal tas ir slēpts lietu iesaiņojums, un mēs faktiski esam redzējuši cilvēkus MSDN forumos, kas ap to nodrošina koda fragmentus dažādās valodās.

: Kā Microsoft plāno nopelnīt naudu no Oksfordas?

Galgons: Marketplace esošās API šodien ir bez maksas ierobežotai lietošanai, tāpēc jūs mēnesī saņemat 5000 API darījumus. Tas ir vienīgais plāns, kas mums tagad ir pieejams. Nākotnē mēs ieviesīsim apmaksātus plānus, pamatojoties uz API izmantošanu.

: Kas notiks tālāk Oksfordai?

Galgons: No kurienes mēs ejam, šeit patiešām ir trīs jomas. Pirmā joma ir par esošo modeļu atjaunināšanu un uzlabošanu. Mēs saņēmām atsauksmes no izstrādātājiem [par to, kā] kāda no API var nedarboties lieliski ar noteikta veida attēliem. Mēs tajā uzlabosim galveno modeli.

Viena no citām lietām, ko mēs darīsim, ir tas, ka mēs turpināsim paplašināt no modeļiem atgriezto funkciju skaitu. Šodien Face API sniedz jums paredzamo vecumu un paredzamo dzimumu. Mēs esam redzējuši daudz pieprasījumu, lai varētu atpazīt citu attēlu saturu.

Trešā joma ir tā, ka mēs paplašināsim mūsu pieejamo API portfeli. Mums šodien ir četri, bet mēs noteikti to neesam darījuši. Mēs nedomājam, ka visa telpa, ko mēs vēlamies nodrošināt, vai rīki, ko mēs vēlamies nodrošināt, vēl nav pabeigta. Mēs turpināsim pievienot jaunas API, kas var tikt galā ar dažādiem datu veidiem vai var sniegt ļoti atšķirīgu dabisko datu izpratni, nekā tas, ko mēs šodien sniedzam.

$config[zx-auto] not found$config[zx-overlay] not found