Programmēšana

Atvērtā koda izaicinātājs izmanto Google tulkotāju

Pētnieki ir izlaiduši atvērtā koda neironu tīkla sistēmu valodu tulkojumu veikšanai, kas varētu būt alternatīva patentētiem, melnās kastes tulkošanas pakalpojumiem.

Atvērtā koda neironu mašīntulkošana (OpenNMT) apvieno Hārvardas pētnieku darbu ar ilgtermiņa mašīntulkošanas programmatūras radītāja Systran ieguldījumu. Tas darbojas uz Torch zinātniskās skaitļošanas ietvara, ko Facebook izmanto arī saviem mašīnmācīšanās projektiem.

Ideālā gadījumā OpenNMT varētu kalpot kā atvērta alternatīva slēgta pirmkoda projektiem, piemēram, Google Translate, kas nesen saņēma lielu neironu tīkla pārveidi, lai uzlabotu tulkošanas kvalitāti.

Bet algoritmi nav vissmagākā daļa; tas piedāvā labus datu avotus tulkošanas procesa atbalstam - šeit ir priekšrocība Google un citiem mākoņu gigantiem, kas nodrošina mašīntulkošanu kā pakalpojumu.

Runāšana mēlēs

OpenNMT, kas saskarnei ar Torch izmanto Lua valodu, darbojas tāpat kā citi produkti savā klasē. Lietotājs sagatavo datu kopu, kas attēlo divus tulkojamos valodu pārus - parasti to pašu tekstu abās valodās, kā tulkojis tulkotājs. Pēc OpenNMT apmācības par šiem datiem lietotājs pēc tam var izvietot iegūto modeli un izmantot to tekstu tulkošanai.

Torch var izmantot GPU paātrinājuma priekšrocības, kas nozīmē, ka OpenNMT modeļu apmācības procesu var daudz paātrināt jebkurā GPU aprīkotā sistēmā. Tas nozīmē, ka apmācības process var ilgt ilgu laiku - "dažreiz daudzas nedēļas". Bet, ja nepieciešams, apmācības procesu var ātri uzrādīt un atsākt pēc pieprasījuma. Ja apmācīto modeli vēlaties izmantot centrālajā procesorā, nevis GPU, modelis jāpārvērš darbam procesora režīmā. OpenNMT nodrošina rīku, lai to izdarītu tieši tā.

Tiešraides demonstrācija, ko nodrošina Systran, apgalvo, ka OpenNMT izmanto kopā ar paša Systran darbu. Tādu kopīgu valodu pāriem kā angļu / franču tulkojumi ir diezgan precīzi. Pāriem, kur, iespējams, ir pieejams mazāks tekstu kopums vai ja valodu pāri nav savstarpēji tik precīzi kartēti - teiksim, angļu / japāņu -, tulkojumi ir nedaudz sarežģītāki un neprecīzāki. Vienā japāņu teikuma paraugā Systran demonstrācija japāņu valodā kļūdaini pieļāva vārdu “kaijas” kā “piekārtus ritentiņus”; Google tulkotājs to pareizi iztulkoja.

Vārdi, vārdi, vārdi

Vissvarīgākais elements, ko OpenNMT vēl nepiegādā, ir iepriekš sagatavoti valodas modeļa dati. Saite uz parauga modeļiem projekta GitHub vietnē pašlaik rada kļūdu. Iespējams, ka ar laiku tajā būs datu paraugi, kurus var izmantot, lai salīdzinātu sistēmu vai iegūtu priekšstatu par apmācības un izvietošanas procesa darbību. Bet tas, visticamāk, neietver datus, kurus var izmantot ražošanas vidē.

Tas ierobežo to, cik noderīgs OpenNMT ir ārpus kastes, jo modeļa dati mašīntulkošanai ir vismaz tikpat izšķiroši kā paši algoritmi. Tulkošanai starp valodu pāriem ir nepieciešami paralēli korpusi vai teksti abās valodās, kas ir cieši saskaņoti viens ar otru teikuma vai frāzes līmenī un kurus var apmācīt izstrādāt modeļus tādos produktos kā OpenNMT.

Daudzi korpusi ir brīvi pieejami, taču, lai tie būtu noderīgi vidusmēra izstrādātājam, ir nepieciešams bruģēt ar rokām. Pārdevējiem, piemēram, Google - un IBM ar valodu tulkotāju sistēmu Watson, ir priekšrocība, jo viņi var viegli veidot korporācijas, izmantojot citus pakalpojumus. Izmantojot savu meklētājprogrammu, Google var automātiski iegūt milzīgu daudzumu pastāvīgi atjauninātu valodas datu.

Tomēr OpenNMT noteikti būs noderīgs tiem, kas vēlas izveidot jaunu funkcionalitāti virs OpenNMT modelēšanas un apmācības koda, un nevēlas būt atkarīgi no tāda API algoritma kā Google, lai to izdarītu.

$config[zx-auto] not found$config[zx-overlay] not found