Maandag 26/08/2019

Nepnieuws lijkt steeds echter

Geloof niet wat u ziet, noch wat u hoort: dankzij manipulatiesoftware en intelligente algoritmen wordt het maken van nepvideo's steeds makkelijker.

Met de nodige beeld- en geluidsmanipulatie laat je voormalig president van de VS George Bush zeggen wat je wil. Beeld YouTube

We zien het hem zelf zeggen, met zijn fors postuur en strenge blik. Theo Francken houdt in de Wetstraat een pleidooi om de Europese grenzen wagenwijd open te zetten. We wrijven ons in de ogen. Dat kan toch niet? Maar het is wel degelijk Franckens mond die beweegt, Franckens stem die spreekt. Dit kan geen fake news  zijn. Of... wel dus. Met de huidige technologieën voor beeld- en geluidsmanipulatie is het maken van zo'n filmpje bijna een fluitje van een cent.

Op YouTube toont een indrukwekkende video de stand van zaken. Links in beeld zien we een computerscherm met het gezicht van George Bush tijdens een persconferentie. Rechts, gezeten op een stoel voor dat beeldscherm, zien we Justus Thies, onderzoeker grafische dataverwerking van de universiteit van Erlangen-Neurenberg. Thies beweegt zijn mond, trekt zijn wenkbrauwen op, maakt vreemde grimassen. Een gewone webcamera registreert alles. Op het beeldscherm kopieert Bush de bewegingen van de onderzoeker nauwgezet, als een digitale marionet. Hetzelfde trucje haalt Thies uit bij Poetin en Obama.

Indrukwekkend, als alles mee zit

De software hiervoor, Face2Face, is ontwikkeld door Thies en collega's van Stanford University en het Max Planck Instituut voor Informatica. Een oudere demonstratie laat iets vergelijkbaars zien, maar dan met twee onderzoekers. Ze zitten naast elkaar aan een bureau en elk van hen kijkt in een eigen webcam, die op tafel staat. Computerschermen achter hen tonen realtime hun gezichten, opgenomen door die twee webcams. Er is alleen iets vreemds aan de hand: het gezicht van de linker onderzoeker blijkt te worden aangestuurd door de rechter. Een webcam en wat software volstaan dus om videobeelden al op het moment van opname te manipuleren.

'Voor leken ziet het er indrukwekkend uit, maar het is natuurlijk wel een laboratoriumopstelling', relativeert Theo Gevers, hoogleraar computer vision van de Universiteit van Amsterdam. 'De setting voldoet aan allerlei randvoorwaarden: de belichting moet uniform zijn en de acteur mag zijn hoofd niet te ver draaien, want dan raakt de computer de kluts kwijt.'

Zelf ontwikkelt hij software voor de animatie van gezichten, vergelijkbaar met intelligente algoritmen als Face2Face. 'Vooraf maak je een standaard driedimensionaal model van een hoofd', legt hij uit. 'Daaroverheen leg je het gezicht dat je wil manipuleren. Over beide gezichten ligt een raster van punten die veranderen bij beweging: rond de mond, bij de ogen, de wangen, de wenkbrauwen. Als er punten bewegen bij de acteur, laat je dezelfde punten meebewegen bij het tweede gezicht.'

Voor de binnenzijde van de mond voegden de onderzoekers een los 3D-model toe, gebaseerd op eerdere, al bestaande beelden van het gemanipuleerde gezicht. Bij eerdere software verraadde de kunstmatige binnenzijde van de mond - een zwart vlak met een witte rij neptanden - de bewerking.

Ook klankkopieën op punt 

Het doet denken aan de manier waarop acteurs in animatiestudio's à la Pixar tekenfilmhelden leven inblazen. De technologieën die wetenschappers als Thies en Gevers ontwikkelen, worden dan ook vaak toegepast in de wereld van entertainment, games en virtual reality. Niets aan de hand, dan, maar wat als lolbroeken of kwadere geesten dezelfde technologie gebruiken om pakweg een president ongewild allerlei raars te laten verkondigen?

Daarvoor is natuurlijk ook spraakmanipulatie nodig, een ander vakgebied waar de technologie griezelig ver is gevorderd. Zo presenteerde Adobe (bekend van Photoshop) vorig jaar het programma VoCo, waarmee je kan knippen en plakken in gesproken tekst. Zo kan je dus Franckens stem gebruiken voor een toespraak waarmee hij zijn overstap naar de PS aankondigt.

Wat je hiervoor nodig hebt is 20 minuten brontekst, uitgesproken door de N-VA’er. Intelligente algoritmen knippen de tekst in losse woorden en klanken. Wanneer je vervolgens een tekst intikt, zoekt het algoritme de benodigde woorden in het bronmateriaal en zet ze in de juiste volgorde. Ontbrekende woorden maakt het algoritme zelf uit losse klanken.

Lyrebird, een Canadese spin-off van onderzoek aan de universiteit van Montreal, presteert ongeveer hetzelfde op basis van slechts een halve minuut brontekst. Het resultaat klinkt hier en daar nog blikkerig, maar is toch indrukwekkend.

The sky is the limit

Iedereen met de juiste technologie kan Francken dus laten spreken en bewegen als een gehoorzame pop. Stinken we er allemaal in, of is er een manier om de filmpjes te ontmaskeren? Jawel, momenteel verraden details de manipulaties nog, zegt Gevers. 'Je ziet het bij Face2Face bijvoorbeeld aan foutjes in de belichting, waardoor de textuur van het gezicht net iets anders is. Ook de fijnheid van expressie is nog beperkt, dus bepaalde complexe gezichtsuitdrukkingen zijn niet mogelijk.'

De oplossing van dat soort problemen is volgens de hoogleraar een kwestie van tijd en rekenkracht. 'Bij een schilderij is een vervalsing makkelijker te herkennen, omdat je te maken hebt met fysieke materialen. Pixels kan je oneindig manipuleren. Het is vooral belangrijk dat mensen beseffen dat ook video's zijn te veranderen, dat ze niet alles klakkeloos moeten geloven.'

Moeten we dan elk filmpje wantrouwen dat voorbijkomt op YouTube en Facebook? Als je Francken hoort pleiten voor open grenzen, in elk geval wel.

Meer over

Wilt u belangrijke informatie delen met De Morgen?

Tip hier onze journalisten


Op alle verhalen van De Morgen rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar info@demorgen.be.
© 2019 MEDIALAAN nv - alle rechten voorbehouden