Kas ir dziļi viltojumi? AI, kas maldina

Deepfakes ir multivide - bieži vien video, bet dažreiz audio -, kas tika izveidota, mainīta vai sintezēta, padziļināti mācoties, lai mēģinātu pievilt dažus skatītājus vai klausītājus ticēt viltus notikumam vai nepatiesam ziņojumam.

Sākotnējais deepfake piemērs (reddit user / u / deepfake) video nomainīja aktrises seju uz pornogrāfijas izpildītāja ķermeņa - tas, protams, bija pilnīgi neētiski, lai arī sākotnēji tas nebija nelikumīgs. Citi dziļi viltojumi ir mainījuši slaveno cilvēku teikto vai runāto valodu.

Deepfakes paplašina ideju par video (vai filmas) komponēšanu, kas tiek darīts gadu desmitiem. Nozīmīgas video prasmes, laiks un aprīkojums attiecas uz video komponēšanu; video dziļi viltojumi prasa daudz mazāk prasmju, laika (pieņemot, ka jums ir GPU) un aprīkojuma, lai gan tie uzmanīgajiem novērotājiem bieži vien nav pārliecinoši.

Kā izveidot dziļus viltojumus

Sākotnēji dziļi viltojumi paļāvās uz automātiskajiem kodētājiem, kas ir nepieskatīts neironu tīkla veids, un daudzi joprojām to dara. Daži cilvēki ir pilnveidojuši šo paņēmienu, izmantojot GAN (ģeneratīvos pretrunu tīklus). Dziļajiem viltojumiem ir izmantotas arī citas mašīnmācīšanās metodes, dažreiz kombinācijā ar mašīnmācīšanās metodēm ar atšķirīgiem rezultātiem.

Auto kodētāji

Būtībā attēlu viltoto seju automātiskie kodētāji veic divpakāpju procesu. Pirmais solis ir izmantot neironu tīklu, lai no avota attēla izvilktu seju un to kodētu funkciju kopumā un, iespējams, maskā, parasti izmantojot vairākus 2D konvekcijas slāņus, pāris blīvus slāņus un softmax slāni. Otrais solis ir izmantot citu neironu tīklu, lai atšifrētu funkcijas, palielinātu izveidotās sejas skalu, pēc vajadzības pagrieztu un mērogotu seju un palielinātu seju uzklātu uz citu attēlu.

Lai apmācītu autokoderu dziļu viltojumu sejas ģenerēšanai, ir nepieciešams daudz avota un mērķa seju attēlu no vairākiem skatpunktiem un dažādos apgaismojuma apstākļos. Bez GPU apmācība var ilgt nedēļas. Izmantojot GPU, tas notiek daudz ātrāk.

GAN

Ģeneratīvie pretrunu tīkli var precizēt autokodatoru rezultātus, piemēram, divus neironu tīklus nostādot viens pret otru. Ģeneratīvais tīkls mēģina izveidot piemērus, kuriem ir tāda pati statistika kā oriģinālam, savukārt diskriminējošais tīkls mēģina atklāt novirzes no sākotnējā datu izplatīšanas.

GAN apmācība ir laikietilpīga iteratīvā tehnika, kas ievērojami palielina aprēķināšanas laika izmaksas, salīdzinot ar automātiskajiem kodētājiem. Pašlaik GAN ir piemērotāki reālu iedomātu cilvēku viena attēla kadru (piemēram, StyleGAN) ģenerēšanai, nevis dziļu viltojumu videoklipu veidošanai. Tas varētu mainīties, jo dziļas mācību aparatūra kļūst ātrāka.

Kā atklāt viltojumus

2020. gada sākumā konsorcijs no AWS, Facebook, Microsoft, Partnership on AI’s Media Integrity Steering Committee un akadēmiķu puses uzbūvēja Deepfake Detection Challenge (DFDC), kas četrus mēnešus darbojās Kaggle.

Konkursā tika iekļauti divi labi dokumentēti prototipa risinājumi: ievads un sākuma komplekts. Uzvarošajam Selima Seferbekova risinājumam ir arī diezgan laba uzrakstīšana.

Sīkāka informācija par risinājumiem liks jums šķērsot acis, ja neesat iesaistījies dziļos neironu tīklos un attēlu apstrādē. Būtībā uzvarošais risinājums veica sejas noteikšanu pa kadram un izvilka SSIM (strukturālās līdzības) indeksa maskas. Programmatūra ieguva atklātās sejas plus 30 procentu rezervi un kodēšanai (klasifikācijai) izmantoja EfficientNet B7, kas iepriekš sagatavots ImageNet. Tagad risinājums ir atvērtā koda.

Diemžēl pat uzvarējušais risinājums spēja noķert tikai aptuveni divas trešdaļas DFDC testa datu bāzē esošo viltojumu.

Deepfake izveides un noteikšanas programmas

Viena no labākajām atvērtā koda video deepfake izveides lietojumprogrammām pašlaik ir Faceswap, kas balstās uz sākotnējo deepfake algoritmu. Ars Technica rakstniekam Tīmam Lī bija nepieciešamas divas nedēļas, izmantojot Faceswap, lai izveidotu dziļu viltojumu, kas mainīja komandiera leitnanta Data (Brent Spiner) seju noZvaigžņu pārgājiens: nākamā paaudze video, kurā Marks Cukerbergs sniedz liecības pirms kongresa. Kā tas ir raksturīgi dziļiem viltojumiem, rezultāts neiztur sniff testu nevienam ar ievērojamu grafikas izsmalcinātību. Tātad vislielākais viltojumu līmenis joprojām nav ļoti labs, izņemot retus izņēmumus, kas vairāk atkarīgi no “mākslinieka” prasmēm, nevis no tehnoloģijām.

Tas ir nedaudz mierinoši, ņemot vērā to, ka uzvarējušais DFDC noteikšanas risinājums arī nav pārāk labs. Tikmēr korporācija Microsoft ir paziņojusi par Microsoft Video Authenticator, taču līdz šim brīdim tā nav izlaidusi. Microsoft saka, ka Video Authenticator var analizēt nekustīgu fotoattēlu vai videoklipu, lai nodrošinātu procentuālo iespēju vai pārliecības rādītāju, ka mediji tiek mākslīgi manipulēti.

Video Authenticator tika pārbaudīts, izmantojot DFDC datu kopu; Microsoft vēl nav ziņojis, cik tas ir labāks par Seferbekova uzvarošo Kaggle risinājumu. AI konkursa sponsoram būtu raksturīgi turpināt un uzlabot konkursa uzvarētājus.

Facebook sola arī dziļu viltojumu detektoru, taču plāno saglabāt koda izejas kodu. Viena problēma ar tādiem atklātas izcelsmes dziļi viltotiem detektoriem kā Seferbekov’s ir tā, ka dziļo viltojumu paaudzes izstrādātāji var izmantot detektoru kā GAN diskriminatoru, lai garantētu, ka viltojums iet garām šim detektoram, galu galā veicinot AI ieroču sacīkstes starp deepfake ģeneratoriem un deepfake detektoriem.

Audio jomā Descript Overdub un Adobe demonstrētais, bet vēl neizlaistais VoCo var padarīt tekstu-runu gandrīz reālu. Jūs apmācāt Overdub apmēram 10 minūtes, lai izveidotu savas balss sintētisko versiju; pēc apmācības jūs varat rediģēt balss signālus kā tekstu.

Saistītā tehnoloģija ir Google WaveNet. WaveNet sintezētās balsis ir reālākas nekā standarta teksta-runas balsis, lai gan tas nav gluži dabisko balsu līmenī, liecina paša Google testēšana. Jūs esat dzirdējis WaveNet balsis, ja nesen izmantojāt balss izvadi no Google palīga, Google meklēšanas vai Google tulkotāja.

Deepfakes un pornogrāfija bez vienprātības

Kā jau minēju iepriekš, oriģinālā deepfake video nomainīja aktrises seju uz pornogrāfijas dalībnieces ķermeni. Kopš tā laika Reddit ir aizliegusi / r / deepfake sub-Reddit, kas to izvietoja, un citas pornogrāfiskas viltojumus, jo lielākā daļa satura bija pornogrāfija, kas nav vienprātīga, un tagad tā ir nelikumīga, vismaz dažās jurisdikcijās.

Vēl viens sub-Reddit par ne-pornogrāfiskās viltojumi joprojām pastāv vietnē / r / SFWdeepfakes. Kaut arī šī sub-Reddit iemītnieki apgalvo, ka viņi dara labu darbu, jums pašiem būs jāizlemj, vai, teiksim, redzot, kā Džo Baidena sejai, kas slikti uzvilkta Roda Serlinga ķermenī, ir kāda vērtība - un vai kāds no tur esošajiem viltojumiem pāriet šņaukšanas pārbaude par ticamību. Manuprāt, daži tuvojas tam, lai sevi pārdotu kā reālus; lielāko daļu var labdarīgi raksturot kā jēlnaftu.

Aizliegums / r / deepfake, protams, nenovērš pornogrāfiju, kas nav vienprātīga, kurai var būt vairākas motivācijas, tostarp atriebības pornogrāfija, kas pati par sevi ir noziegums ASV. Citas vietnes, kas ir aizliegušas bezvecīgu viltojumu, ir Gfycat, Twitter, Discord, Google un Pornhub, un visbeidzot (pēc lielas pēdu vilkšanas) Facebook un Instagram.

Kalifornijā personām, uz kurām attiecas seksuāla rakstura dziļi viltots saturs, kas izgatavots bez viņu piekrišanas, ir pamats vērsties pret satura veidotāju. Arī Kalifornijā 60 dienu laikā pēc viņu ievēlēšanas ir aizliegta ļaunprātīgu dziļi viltotu audio vai vizuālo mediju izplatīšana, kas vērsta uz kandidātu, kurš pretendē uz valsts amatu. Ķīna pieprasa, lai dziļi viltojumi būtu skaidri marķēti kā tādi.

Deepfakes politikā

Daudzas citas jurisdikcijas trūkums likumi pret politiskiem viltojumiem. Tas var būt satraucoši, jo īpaši, ja augstas kvalitātes politisko personu viltojumi to izplata plaši. Vai Nensijas Pelosi dziļa viltojums būtu sliktāks par tradicionāli palēnināto Pelosi videoklipu, kas manipulēts, lai liktu izklausīties, ka viņa nomelno savus vārdus? Tas varētu būt, ja to ražo labi. Piemēram, skatiet šo video no CNN, kas koncentrējas uz viltojumiem, kas saistīti ar 2020. gada prezidenta kampaņu.

Deepfakes kā attaisnojums

“Tas ir dziļi viltots” ir arī iespējams attaisnojums politiķiem, kuru patiesie, apkaunojošie videoklipi ir noplūduši. Tas nesen notika (vai, iespējams, notika) Malaizijā, kad ekonomikas ministrs noraidīja geju seksa lenti kā dziļu viltojumu, kaut arī otrs lentē redzamais vīrietis zvērēja, ka tā ir reāla.

No otras puses, Gabonas slimnieka prezidenta Ali Bongo iespējamās amatieru viltojumu izplatīšana veicināja turpmāko militāro apvērsumu pret Bongo. Dziļā viltojuma videoklips militārajiem spēkiem norādīja, ka kaut kas nav kārtībā, pat vairāk nekā Bongo ilgstošā prombūtne plašsaziņas līdzekļos.

Vairāk dziļu viltojumu piemēru

Nesen dziļi viltots video ar Visas zvaigznes, 1999. gada klasiskā Smash Mouth klasika, ir piemērs tam, kā manipulēt ar video (šajā gadījumā - populāru filmu misu), lai viltotu lūpu sinhronizāciju. Satura veidotājs, YouTube lietotājs ontyj, atzīmē, ka viņš “ir aizrāvies ar wav2lip testēšanu, un tagad tas pastāv ...” Tas ir uzjautrinoši, lai arī nepārliecina. Neskatoties uz to, tas parāda, cik daudz labāka ir viltus lūpu kustība. Pirms dažiem gadiem nedabiska lūpu kustība parasti bija viltota videoklipa mirusi dāvana.

Tas varētu būt sliktāk. Apskatiet šo dziļi viltoto video, kurā redzams, kā prezidents Obama ir mērķis, un Džordans Peels kā vadītājs. Tagad iedomājieties, ka tajā nebija iekļauts nekāds konteksts, kas to atklātu kā viltojumu, un tajā bija iekvēlinošs aicinājums uz rīcību.

Vai tu vēl šausminies?