Programmēšana

Apache PredictionIO: Vienkāršāka mašīnmācīšanās ar Spark

Apache fonds ir pievienojis jaunu mašīnmācīšanās projektu savam sarakstam Apache PredictionIO, kas ir atvērta projekta versija, kuru sākotnēji izstrādāja Salesforce meitasuzņēmums.

Ko PredictionIO dara mašīnmācībai un dzirkstelei

Apache PredictionIO ir veidots virs Spark un Hadoop un kalpo ar Spark balstītām prognozēm no datiem, izmantojot pielāgojamas veidnes kopīgiem uzdevumiem. Lietotnes nosūta datus uz PredictionIO notikumu serveri, lai apmācītu modeli, un pēc tam vaicā motoram prognozes, pamatojoties uz modeli.

Spark, MLlib, HBase, Spray un Elasticsearch komplektā ietilpst PredictionIO, un Apache piedāvā atbalstītus SDK darbam Java, PHP, Python un Ruby. Datus var uzglabāt dažādās aizmugurēs: JDBC, Elasticsearch, HBase, HDFS un to lokālās failu sistēmas tiek atbalstītas ārpus kastes. Aizmugurējie gali ir pievienojami, tāpēc izstrādātājs var izveidot pielāgotu aizmugures savienotāju.

Kā PredictionIO veidnes atvieglo Spark paredzējumu apkalpošanu

PredictionIO ievērojamākā priekšrocība ir tās veidņu sistēma mašīnmācīšanās motoru izveidei. Veidnes samazina smago celšanos, kas nepieciešama, lai izveidotu sistēmu, lai kalpotu noteikta veida prognozēm. Tie apraksta visas trešo personu atkarības, kas varētu būt vajadzīgas šim darbam, piemēram, Apache Mahout mašīnmācīšanās lietotnes ietvars.

Dažas esošās veidnes ietver:

  • Universāls ieteikumu dzinējs.
  • Teksta klasifikācija.
  • Izdzīvošanas analīze (laika prognozēm starp neveiksmēm).
  • Tēmu apzīmēšana, izmantojot Wikipedia kā zināšanu bāzi.
  • Līdzības analīze.

Dažas veidnes tiek integrētas arī ar citiem mašīnmācīšanās produktiem. Piemēram, divās no prognožu veidnēm, kas pašlaik atrodas PredictionIO galerijā, putekļu ātruma noteikšanai un vispārīgiem ieteikumiem izmantojiet H2O.ai dzirkstošā ūdens papildierīces.

PredictionIO var arī automātiski novērtēt prognozēšanas motoru, lai noteiktu labākos hiperparametrus, ko ar to izmantot. Izstrādātājam jāizvēlas un jāiestata metrika, kā to izdarīt, taču parasti tas tiek darīts mazāk nekā hiperparametru regulēšana ar rokām.

Palaižot kā pakalpojumu, PredictionIO var pieņemt prognozes atsevišķi vai kā paketi. Sērijveida prognozes tiek automātiski paralēlas visā Spark kopā, ja vien partijas prognozēšanas darbā izmantotie algoritmi ir seriālizējami. (PredictionIO noklusējuma algoritmi ir.)

Kur lejupielādēt PredictionIO

PredictionIO avota kods ir pieejams vietnē GitHub. Ērtības labad ir pieejami dažādi Docker attēli, kā arī Heroku veidošanas pakotne.

$config[zx-auto] not found$config[zx-overlay] not found