Detectarea videoclipurilor "în profunzime" în clipul unui ochi

Anonim

O nouă formă de dezinformare este gata să se răspândească prin intermediul comunităților online, pe măsură ce campaniile electorale de la mijlocul anilor 2018 se încălzesc. Se numește "adânc" după contul pseudonimos online care a popularizat tehnica - care și-ar fi putut alege numele deoarece procesul folosește o metodă tehnică numită "învățare profundă" - aceste videoclipuri false arată foarte realistă.

Până acum, oamenii au folosit videoclipuri profunde în pornografie și satiră, pentru a face să pară că oamenii celebri fac lucruri pe care nu le-ar face în mod normal. Dar este aproape sigur că vor apărea profeți în timpul sezonului campaniei, pretinzând că îi descriu pe candidați spunând lucruri sau locurile pe care candidatul real nu le-ar face.

Deoarece aceste tehnici sunt atât de noi, oamenii au probleme în a spune diferența dintre videoclipurile reale și videoclipurile profunde. Munca mea, cu colegul meu Ming-Ching Chang și doctoratul nostru. elevul Yuezun Li, a găsit o modalitate de a spune cu adevărat videoclipuri reale din videoclipuri profunde. Nu este o soluție permanentă, deoarece tehnologia se va îmbunătăți. Dar este un început și oferă speranța că calculatoarele vor putea ajuta oamenii să spună adevărul din ficțiune.

Ce-i "profund", oricum?

Efectuarea unui videoclip profund este foarte asemănător traducerii între limbi. Servicii precum Google Traducere folosesc învățarea mașinilor - analiza pe calculator a zeci de mii de texte în mai multe limbi - pentru a detecta modelele de utilizare a cuvintelor pe care le folosesc pentru a crea traducerea.

Deformarea algoritmilor funcționează la fel: ei folosesc un tip de sistem de învățare a mașinii numit o rețea neurală profundă pentru a examina mișcările faciale ale unei singure persoane. Apoi sintetizează imagini ale feței unei alte persoane care face mișcări analoge. Făcând acest lucru, creează în mod eficient un videoclip al persoanei vizate care pare să facă sau să spună lucrurile pe care le-a făcut persoana sursă.

Înainte ca acestea să poată funcționa corespunzător, rețelele neuronale profunde necesită o mulțime de informații despre sursă, cum ar fi fotografiile persoanelor care sunt sursa sau țintă de falsificare a identității. Cele mai multe imagini folosite pentru a instrui un algoritm profund, cu atât mai realistă va fi confesiunea digitală.

Detectarea clipește

În acest nou tip de algoritm există încă defecte. Unul dintre ele are de-a face cu modul în care fețele simulate clipesc - sau nu. Oamenii sănătoși adulți clipesc undeva între 2 și 10 secunde, iar o singură clipire durează între o zecime și patru zecimi de secundă. Asta ar fi normal să vedeți într-un videoclip al unei persoane care vorbește. Dar nu este ceea ce se întâmplă în multe videoclipuri profunde.

Când un algoritm profund este antrenat pe imaginile de față ale unei persoane, depinde de fotografiile disponibile pe internet care pot fi folosite ca date de antrenament. Chiar și pentru persoanele care sunt fotografiate de multe ori, puține imagini sunt disponibile online, arătând ochii închiși. Nu numai că fotografiile sunt rare, deoarece ochii oamenilor sunt deschiși de cele mai multe ori, dar fotografii nu publică, de obicei, imagini în care ochii principalilor subiecți sunt închise.

Fără imagini de antrenament ale persoanelor care clipeau, algoritmii profund este mai puțin probabil să creeze fețe care clipesc în mod normal. Când se calculează rata globală a clipirii și se compară cu cea naturală, am constatat că personajele din videoclipurile profunde clipesc mult mai puțin frecvente în comparație cu persoanele reale. Cercetarea noastră utilizează învățarea mașinilor pentru a examina deschiderea și închiderea ochilor în videoclipuri.

Acest lucru ne oferă o sursă de inspirație pentru detectarea videoclipurilor profunde. Ulterior, vom dezvolta o metodă pentru a detecta momentul în care persoana din videoclip clipește. Pentru a fi mai specific, acesta scanează fiecare cadru dintr-un videoclip în cauză, detectează chipurile din acesta și apoi localizează automat ochii. Apoi utilizează o altă rețea neuronală profundă pentru a determina dacă ochiul detectat este deschis sau aproape, folosind aspectul ochiului, trăsăturile geometrice și mișcarea.

Știm că munca noastră este de a profita de un defect în tipul de date disponibile pentru a instrui algoritmi profund. Pentru a evita căderea pradă unui defect similar, ne-am antrenat sistemul pe o mare bibliotecă de imagini atât ale ochilor deschiși, cât și ai celor închise. Această metodă pare să funcționeze bine și, ca rezultat, am obținut o rată de detectare de peste 95%.

Acesta nu este ultimul cuvânt despre detectarea adâncilor, desigur. Tehnologia se îmbunătățește rapid, iar concurența dintre generarea și detectarea videoclipurilor false este similară cu cea a unui joc de șah. În special, clipirea poate fi adăugată la videoclipuri profunde prin includerea imaginilor cu ochi închise sau prin utilizarea secvențelor video pentru antrenament. Oamenii care doresc să confunde publicul vor face mai bine să facă videoclipuri false - și noi și alții din comunitatea tehnologică va trebui să găsim în continuare modalități de a le detecta.

menu
menu