Apache Spark 3.0 pievieno Nvidia GPU atbalstu mašīnmācībai

Apache Spark, atmiņā ievietoto lielo datu apstrādes ietvars, kļūs pilnībā GPU paātrināts drīzumā iznākošajā 3.0 iemiesojumā. Vislabākais ir tas, ka mūsdienu Spark lietojumprogrammas var izmantot GPU paātrinājumu bez izmaiņām; visas esošās Spark API darbojas kā ir.

Nvidia nodrošinātie GPU paātrinājuma komponenti ir paredzēti, lai papildinātu visus Spark lietojumprogrammu posmus, ieskaitot ETL darbības, mašīnmācības apmācību un secinājumu apkalpošanu.

Nvidia Spark ieguldījums ir balstīts uz GPU paātrinātu datu zinātnes bibliotēku komplektu RAPIDS. Daudzas no RAPIDS iekšējām datu struktūrām, piemēram, datu ietvari, papildina Spark pašu, taču, lai Spark dabiski izmantotu RAPIDS, ir vajadzējis gandrīz četrus gadus ilgu darbu.

Spark 3.0 ātruma palielināšana nenotiek tikai no GPU paātrinājuma. Spark 3.0 gūst arī veiktspējas pieaugumu, samazinot datu pārvietošanos uz un no GPU. Kad dati tomēr jāpārvieto pāri klasterim, Unified Communication X ietvars tos tieši pārsūta no viena GPU atmiņas bloka uz otru ar minimālu pieskaitāmo daļu.

Saskaņā ar Nvidia teikto, Spark 3.0 priekšskatījuma laidiens, kas darbojas platformā Databricks, septiņus reizes uzlaboja veiktspēju, izmantojot GPU paātrinājumu, lai gan informācija par darba slodzi un tā datu kopu nebija pieejama.

Spark 3.0 vispārējai pieejamībai nav norādīts noteikts datums. Apache Spark projekta vietnē varat lejupielādēt priekšskatījuma laidienus.

Jums varētu patikt arī