Dinsdag 25/06/2019

Technologie

Waarom worden captcha’s steeds moeilijker? “Het is balanceren op een slappe koord”

Beeld DM

Veertig procent van alle online tickets voor concerten wordt opgekocht door robots, om ze vervolgens voor hogere prijzen door te verkopen. Dat blijkt uit een nieuw onderzoek. Die geautomatiseerde scripts kunnen zich online steeds beter vermommen als mens. “We staan op een punt waarbij tests om mens en robot van elkaar te onderscheiden eindigen in een test die voor veel mensen te moeilijk is.”

Wil zoon of dochter een nieuw account aanmaken op Fortnite? Dan zal uw kind eerst moeten bewijzen dat het geen robot is. Dat gebeurt via een captcha, oftewel een ‘completely automated public Turing test to tell computers and humans apart’. Met andere woorden: een captcha helpt websites te achterhalen of de websitebezoekers mens of robot zijn. Mensen mogen verder op de website, robots niet.

Dat is geen kwestie van discriminatie of van goedkope arbeid om algoritmes te trainen. Noch is het de bedoeling mensen in een identiteitscrisis te duwen. De captchatest is een gereedschap dat al jaren om veiligheidsredenen wordt ingezet. Sociale media, online fora, online verkoopplaatsen en e-mailproviders hebben er alle belang bij dat enkel echte mensen profielen aanmaken, berichten met elkaar uitwisselen en e-mails naar elkaar versturen.

Denk maar aan de impact die Russische bots en valse profielen op Facebook en Twitter hebben gehad op verschillende verkiezingen over de hele wereld. Sociale media weren zich beter tegen propaganda-bots. Festivals zoals Tomorrowland verzetten zich dan weer met hand en tand tegen koopgrage bots. Uit recent onderzoek blijkt dat 40 procent van de tickets opgekocht wordt door bots. Die worden ingezet door malafide organisaties om een groot aantal tickets aan te kopen – en mensen te snel af te zijn in de online wachtrij – in de hoop de toegangskaartjes later voor een meerprijs door te verkopen.

Maar ook een publieke instelling zoals de KU Leuven grijpt al enkele jaren naar de captchatechnologie. Surf in het incognitovenster van uw browser eens naar ‘Wie is wie’ van de KU Leuven. Alvorens u het nummer van de vaste lijn van Annemie Depuydt kunt raadplegen, moet u slagen voor de volgende opdracht: “Selecteer alle vakken met verkeerslichten. Als die er niet zijn, klik op ‘overslaan’.”

Als u geluk hebt, krijgt u een duidelijk beeld te zien van een groot verkeerslicht. In enkele seconden klikt u de juiste vakken aan en krijgt u het telefoonnummer van Annemie Depuydt, directeur informatie- en communicatietechnologiesystemen aan de KU Leuven, te zien. Hebt u pech, dan zijn de foto’s zo onduidelijk dat het verschil tussen een lantaarnpaal en een verkeerslicht haast niet zichtbaar is. Nog moeilijker: etalages in foto’s aanwijzen, waardoor u zelf aan de definitie van het woord etalage zou beginnen te twijfelen.

Selecteer alle vakken met verkeerslichten. Beeld RV

“Wij gebruiken die captcha zeker niet om het mensen moeilijker te maken om contactgegevens van onze academici te vinden”, verzekert Depuydt wanneer we haar eindelijk aan de telefoon krijgen. “Als publieke instelling is het onze plicht gemakkelijk bereikbaar te zijn. Tot enkele jaren geleden stonden al onze contactgegevens vrij op het net.”

Het nadeel van die openheid: ook mensen met minder goede bedoeling kunnen makkelijk aan de contactgegevens. Hackers schrijven kleine computerprogramma’s of scripts die in korte tijd alle e-mailadressen van websites plukken. Die oogst wordt gebruikt om spam- en phishingmails te versturen. “Onze medewerkers ontvingen in die periode veel spam-mails. Sinds we met captcha’s werken, is het aandeel spam aanzienlijk afgenomen”, zegt Depuydt. Precieze cijfers kan ze daar niet op plakken.

Selecteer alle afbeeldingen met een etalage. Beeld RV

Leren lezen

Het nut van een online test die helpt om mens en robot van elkaar te onderscheiden neemt niet weg dat captcha’s al sinds hun intrede begin deze eeuw tot veel frustratie hebben geleid. Zo veel zelfs dat de uitvinder ervan, Luis Von Ahn, zich verplicht voelde zich te excuseren voor zijn monster van Frankenstein. In een TED-talk uit 2011 presenteerde hij duizelingwekkende cijfers: in de jaren 2000 werden elke dag 200 miljoen captcha’s ingevuld. Von Ahn ging ervan uit dat een captchatest oplossen ongeveer 10 seconden duurde. Hij was er met zijn uitvinding eigenhandig in geslaagd om 500.000 uren per dag van de mensheid te verspillen.

Zijn oplossing voor die tijdverspilling was even eenvoudig als ingenieus: hij zou captcha’s inzetten voor wat men in de computerwereld ‘human computation’ noemt.

“In het begin waren captcha’s willekeurige lettercombinaties”, zegt professor informatica Bart Goethals (UAntwerpen). “Computers waren toen nog niet in staat gewone letters te herkennen.” Door de evolutie van de beeldherkenningstechnologie in combinatie met machine learning, waarbij artificiële neurale netwerken het leerproces van onze hersenen leren te imiteren, konden computers dat steeds beter. Von Ahn besloot de verloren tijd aan willekeurige lettercombinaties nuttig te besteden: de mens zou met behulp van captcha’s computers ‘leren lezen’.

Woorden uit te digitaliseren teksten die moeilijk te ontcijferen waren, werden door Von Ahn in een database verzameld. Die database gebruikte hij om captcha’s aan te maken. Webgebruikers kregen op inlogpagina’s in plaats van willekeurige lettercombinaties twee woorden te zien om te bewijzen dat ze geen robot waren. Een woord uit de database die het systeem wilde leren ontcijferen, aangevuld met een woord dat het systeem al lang kende. “Von Ahn gebruikte met andere woorden het enorme netwerk van mensen die online captcha’s invulden om computers woorden aan te leren”, zegt Goethals. De wetenschapper doopte dat vernieuwde programma ‘reCAPTCHA’ en bedacht een catchy slogan: “Stop spam, read books.

(Lees verder onder de foto)

Google kocht in 2009 het onderzoeksproject reCAPTCHA. Beeld RV

In 2009 besloot Google het reCAPTCHA-project op te kopen om zijn diensten zoals Gmail en Google+ beter te beschermen tegen spammers. Tegelijk hielp de internetreus op die manier om onder andere het volledige archief van The New York Times, dat teruggaat tot de negentiende eeuw, te digitaliseren. “Door het enorme netwerk van surfers die onbewust meehielpen aan het digitaliseren van teksten, ging dat belachelijk snel”, zegt professor Goethals. En dat had ook zijn nadelen.

Niet alleen computers die boeken digitaliseren konden plots makkelijk woorden en letters van elkaar onderscheiden, ook softwareprogramma’s die net probeerden captcha’s te omzeilen werden steeds slimmer. Na verloop van tijd begon Google woorden te doorstrepen of in heel absurde vormen te gieten, waar enkel mensen nog aan uit konden. “De uitdaging van een captcha is niet min”, benadrukt Goethals. “Het is balanceren op een slappe koord: je wilt zeker zijn dat je de robots buiten houdt, maar je wilt gebruikers niet te veel op de zenuwen werken.”

Schiftingsvraag

Die constante evenwichtsoefening leidde in 2014 tot een vervelende vaststelling. Google was erin geslaagd algoritmes te ontwikkelen die veel beter waren in het lezen van doorstreepte, vervormde teksten dan de mens zelf. Als Google de allermoeilijkste captchatest aan mensen voorlegde, slaagde slechts een op de drie. Het slaagpercentage van computers lag opmerkelijk hoger: 99,8 procent.

Vijf jaar later heeft diezelfde evolutie zich voortgezet op het vlak van beeld en geluidsfragmenten. Niemand kan beter woorden, fragmenten audio of verkeerslichten in foto’s herkennen dan computers. Dat is meteen ook de reden waarom we tegenwoordig foto’s te zien krijgen waar straatverlichting en lantaarnpalen haast niet in te onderscheiden zijn. Mensen kunnen hun ogen eens dichtknijpen en het beeld proberen te interpreteren. Dat kan een computer vooralsnog niet. Maar ook die lastige beelden zullen op korte termijn niet voldoende zijn om mens en machine uit elkaar te houden.

“We staan op een punt waarbij tests om mens en robot van elkaar te onderscheiden eindigen in een test die te moeilijk is voor veel mensen”, vertelde Jason Polakis, een computerwetenschapper van de universiteit van Illinois, aan de technologiewebsite The Verge.

Volgens Polakis wemelt het van de literatuurstudies die onderzoek doen naar de ideale schiftingsvraag om online het verschil te maken tussen mens en robot. Onderzoekers hebben geprobeerd gebruikers foto’s te laten sorteren op basis van gezichtsuitdrukkingen, gender of etniciteit. Geen succes. 

Een ander onderzoek liet gebruikers varkens in foto’s aanduiden. Het ging om getekende varkens met menselijke accessoires zoals zonnebrillen om computers te misleiden. Jammer genoeg is ook dat initiatief niet doorgebroken. 

Recentelijk waren er initiatieven die een soort captchaspel ontwikkelden waarbij je een object in de juiste richting moest verslepen met je muis. Omdat bij dat soort tests niet meteen een opdracht staat, hopen onderzoekers computers te slim af te zijn. Voorlopig ook nog geen succes.

Het doet de vraag rijzen: als we de snelheid waarmee algoritmes leren willen vertragen, moeten we dan niet allemaal samen de foute oplossingen invullen in alle soorten captcha’s? Zijn wij allemaal samen gratis arbeid aan het uitvoeren om robots slimmer te maken dan mensen? 

Francis Wyffels, expert robotica en artificiële intelligentie bij IDLab van UGent-imec, grinnikt even wanneer we hem de vraag voorschotelen. “Verkeerslichten en etalages herkennen in een foto is nu niet echt state of the art technologie. Die technologie gaat me bijvoorbeeld niet helpen om robots te bouwen die iets nuttigs kunnen.”

Bij Google zijn ze uit veiligheidsoverwegingen twee jaar geleden een nieuwe weg ingeslagen. Daar gaan ze ervan uit dat de online Turing-test niet meer volstaat om mens van machine te onderscheiden. De mens zal op termijn toch altijd verliezen. Zijn nieuwste reCAPTCHA-test is een risicoanalyse die op de achtergrond van haast elke website gebeurt. Zodra u een nieuw profiel wilt aanmaken of een betaling wilt doen op een website waar u nog niet eerder iets hebt gekocht, hoeft u enkel nog aan te vinken dat u geen robot bent.

Op de achtergrond analyseert uw browser factoren zoals IP-adres, locatiegegevens, de tijd waarin je naar een website surft, de manier waarop surfers hun muis bewegen of in welk tempo ze door een pagina scrollen. 

Als al die factoren samen te veel op robotgedrag lijken, moeten surfers toch een online test invullen. Het zal dan ook niet verbazen dat tegenwoordig computerscripts geschreven worden waarbij algoritmes zich voordoen als menselijke surfers om de Google-test te omzeilen. “We zitten eigenlijk nog maar aan het begin van die eeuwige wedloop”, voorspelt informaticaprofessor Goethals.

Lijkt je surfgedrag te veel op een robot? Dan moet je bewijzen dat je een mens bent. Beeld RV
Meer over

Wilt u belangrijke informatie delen met De Morgen?

Tip hier onze journalisten


Op alle verhalen van De Morgen rust uiteraard copyright. Linken kan altijd, eventueel met de intro van het stuk erboven.
Wil je tekst overnemen of een video(fragment), foto of illustratie gebruiken, mail dan naar info@demorgen.be.
© 2019 MEDIALAAN nv - alle rechten voorbehouden