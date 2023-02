Over ChatGPT is de afgelopen weken al heel wat inkt gevloeid. Met veel gemak schrijft het brieven, liedjesteksten, artikels en gedichten zonder fouten en dat allemaal in een mum van tijd. Maar hoe slim is deze chatbot nu eigenlijk? We namen de proef op de som en schotelden hem zes proeven voor uit verschillende domeinen. Het resultaat is ronduit bedroevend.

Vanuit het onderwijs wordt ChatGPT steeds meer beschouwd als een bedreiging. Zo zouden studenten hun huiswerk niet meer zelf maken en dat zou tot heel veel plagiaat leiden. Ook wordt er gevreesd dat heel wat jobs op de helling zouden komen te staan omdat hun taken zouden overgenomen worden door ChatGPT. Vanuit de Verenigde Staten hoorden we al dat deze chatbot geslaagd was voor het zogenaamde bar exam, dat advocaten moeten afleggen om toegang te krijgen tot de balie. De experimenten met gedichtjes en liedjesteksten passeerden ook al veelvuldig de revue. Een liedje schrijven in de stijl van Nick Cave over eender welk onderwerp? In amper vijf seconden tovert ChatGPT het uit zijn hoed.

Maar hoe is het nu eigenlijk gesteld met de inhoudelijke kennis van deze chatbot? Omdat het een taalmodel is, bleken de meest eenvoudige rekensommen de mist in te gaan. En toch hoorden we ook daar weer dat hij geslaagd was in het toelatingsexamen geneeskunde in de Verenigde Staten. Op 30 januari kwam er een upgrade van ChatGPT met ‘improved factuality and mathematical capabilities’. Een goed moment om de proef op de som te nemen.

We legden de bot een aantal proeven voor uit de wetenschappelijke olympiades voor studenten in het middelbaar onderwijs, een gemiddeld niveau dus. De resultaten kunnen we in het algemeen als bedroevend omschrijven. Op wiskunde scoorde ChatGPT slechts 23 procent. Gezien er telkens amper vier à vijf antwoordmogelijkheden waren, kon je net zo goed gegokt hebben voor een gelijkaardig resultaat. Maar ook bij andere wetenschappelijke vakken was er niet veel beterschap. Op chemie haalde ChatGPT in onze steekproef dezelfde 23 procent, bij geografie en fysica 37 procent. De enige uitschieter was biologie, waar de bot met 70 procent zelfs een mooi resultaat boekte.

Doe de test ChatGPT scoorde 8 op 20 op deze test voor middelbare scholieren. Doet u het beter?

Het vergelijkend examen notariaat was een nog groter drama met 12,2 procent. En dat zelfs met een coulante verbetering. Met andere woorden: don’t try this at home. Toch niet op dit moment. Studenten zullen in de nabije toekomst nog altijd hun taken zelf moeten maken als er zelfs maar een fractie redenering bij te pas komt.

Zwak in rekenen en redeneren

“Dat verbaast me niks”, zegt Tim Van de Cruys, professor artificiële intelligentie gespecialiseerd in computerlinguïstiek aan de KU Leuven. “Dat zal je heel vaak zien. Het enige wat dit model doet, is zo goed mogelijk het volgende woord voorspellen op basis van een massale hoeveelheid data die het verzameld heeft op het internet. Op basis van woorden die vooraf komen, wordt er statistisch berekend welk woord logischerwijs zou kunnen volgen. En daardoor zal de output van deze bot op menselijke teksten lijken. Maar eigenlijk heeft ChatGPT geen enkel idee of ze enige link hebben met de werkelijkheid. Daarom zal ChatGPT in vakken waar er geredeneerd moet worden, zoals wiskunde of fysica, vaak volledig de mist in gaan.”

Maar soms slaagt hij er wel in om wiskundige berekeningen te maken met alles erop en eraan. Hoe kan dat, als het enkel een taalmodel is? Van de Cruys: “Tijdens het doorploegen van het internet is de bot ook op heel wat rekensommen gestoten. En op basis daarvan zal hij ook weer een plausibele voorspelling doen: wat zal het volgende woord of cijfer zijn? Voor simpele dingen kan dat nog werken, maar voor complexe berekeningen zal dat heel vaak niet volstaan.”

Dat verklaart ook enigszins de goede score voor biologie. Daarbij ging het vooral over kennisvragen, waaraan weinig berekeningen te pas kwamen. Oké, moeilijke berekeningen zijn dus onmogelijk, maar waarom ging ChatGPT zelfs in de fout bij het berekenen van het kwadraat van 2,022? Dat is iets wat zelfs een simpel rekenmachientje kan beantwoorden. “Het kwadraat berekenen van zo’n getal achter de komma, zal niet zo vaak voorkomen op internet. En dus is het een iets originelere oefening, waardoor het ook fout kan gaan”, legt Van de Cruys uit.

Naast het grote aantal fouten valt vooral op hoe stellig ChatGPT onjuiste antwoorden produceert. Voor mensen die niet zoveel van de specifieke vakgebieden kennen, lijken de antwoorden allemaal enorm overtuigend en plausibel. Dat is ook wat erenotaris Christof Gheeraert, voorzitter van de benoemingscommissie van het notariaat, opviel bij de correctie van het vergelijkend examen voor het notariaat. “De antwoorden die geproduceerd worden, zijn taalkundig wel heel erg goed. Op één of twee taalfoutjes na is het zelfs beter dan veel van onze kandidaat-notarissen die het examen afleggen. Daarvoor heb ik een tweetal punten extra gegeven, in de opleiding hechten we daar enorm veel belang aan. Later moeten de notarissen aan hun klanten ook op een duidelijk en heldere manier juridische concepten uitleggen.”

Soms tegenstrijdige antwoorden

Tot daar het weinige goede nieuws. “Maar wat hij allemaal schreef, is inhoudelijk zeer, zeer zwak”, gaat Gheeraert verder. “Enerzijds is het heel oppervlakkig en anderzijds kan hij helemaal niet consistent redeneren. Ik geef een voorbeeld. In een eerste vraag over een casus moest hij aangeven of een bepaalde rechtsfiguur van toepassing was. Hij zegt dan correct dat dat niet het geval is. Maar in een vervolgvraag gaat hij er dan plots van uit dat het toch kan. Ook het feit dat hij in een akte geen fouten kan terugvinden, is natuurlijk een groot manco.”

Is Gheeraert verbaasd over het slechte resultaat van ChatGPT? “Eerlijk gezegd had ik er helemaal geen verwachtingen bij. Maar ik was wel benieuwd, dat geef ik toe. Of ik vind dat het een opluchting is voor ons vak dat ChatGPT zo slecht is op onze toelatingsproef? Nee, zo zie ik dat niet. Ik vind dat we de technologie moeten omarmen. Als de bot nu al veel beter geweest zou zijn, dan moesten we daar rekening mee houden. Het kan ons ook helpen. Zo is ChatGPT heel goed in het schrijven van formele brieven als je precies aangeeft wat erin moet staan. Welnu, dat zou ons heel wat tijd besparen, die we kunnen besteden aan de klanten die bij ons langskomen. Dat is toch alleen maar goed nieuws.”

Lees ook Paul De Grauwe: ‘ChatGPT stelt zich niet de vraag wat het correcte antwoord is’

Nog opvallend, naar het einde van ons experiment toe, gingen we een aantal gegevens dubbelchecken. Als we dezelfde vragen enkele dagen later opnieuw in de chatbot dropten, werd er plots een andere antwoordmogelijkheid aangeduid. Of als we zelf aangaven dat het antwoord fout was, ging ChatGPT die fout toegeven en er een verkeerde uitleg aan proberen te geven om dan soms een even fout antwoord te produceren. Er was helemaal geen lijn in te trekken.

En toch, in andere gevallen gaf hij gewoon rechtuit toe dat het iets niet kon. Zo was het voor ChatGPT – zelfs na herhaaldelijk aandringen en met alle gedetailleerde gegevens voorhanden – onmogelijk om een nalatenschap te verdelen onder erfgenamen. “Dit is nu net een combinatie van wiskunde en redeneren, waar hij het ontzettend moeilijk mee heeft”, zegt Van de Cruys. “Dat zal met het huidige, pure taalmodel een groot manco blijven. Maar ik sluit niet uit dat er een soort van supermodel gemaakt wordt, waarbij het bestaande neurale model gecombineerd wordt met een wiskundig model. En dat een chatbot dus zelf zou kunnen bepalen wanneer welk model gebruikt moet worden. Maar dat is toekomstmuziek. Dus moeten we het nu enkel en alleen gebruiken waarvoor het dient. Ik heb zelf ook wel een aantal van die eenvoudige experimentjes gedaan, waarbij ik bijvoorbeeld vroeg wie het grootst was van deze basketbalspelers: Yao Ming (2,29m) of LeBron James (2,06m). Hij gaf wel degelijk de juiste lengtes, maar trok vervolgens de conclusie dat James groter is dan Ming.”

Geheimzinnige black box

Wel vreemd is dat ChatGPT zelf aangaf dat zijn upgrade op 30 januari veel beter zou zijn in wiskundige oplossingen. Wat is er dan precies veranderd en waarom blijft die toch zo slecht? “Dat is voor iedereen een groot mysterie”, vervolgt Van de Cruys. “ChatGPT doet daar zelf heel geheimzinnig over en heeft nog geen peer reviewed paper gepubliceerd. Zo is het nu een black box, je hebt totaal geen idee waar de antwoorden vandaan komen. Het is een samenraapsel van teksten die hij in de loop der jaren is tegengekomen. Daarom is het nog altijd veel beter om pure informatie te zoeken via een traditionele zoekmachine, zoals Google. Zo kan je zelf inschatten welke informatie al dan niet betrouwbaar is, afhankelijk van bijvoorbeeld de bron.”

In de Verenigde Staten bleek dat deze chatbot wel geslaagd was voor het ingangsexamen geneeskunde en het advocatenexamen. Zijn die examens daar dan gemakkelijker? “Dat zou ik zeker niet durven zeggen”, zegt Tim Wuyts, professor aan de rechtenfaculteit van de UHasselt, die onder andere het vak juridisch schrijven doceert. “Een van de verklaringen is misschien wel dat het aantal bronnen waaruit hij in het Nederlandse taalgebied kan putten veel beperkter is dan in de Verenigde Staten. Specifiek voor de juridische beroepen is het bovendien bekend dat in België heel wat rechtsleer achter de paywall zit en dat er geen goede databank is voor de meeste rechtspraak. En dus kan ChatGPT ook niet genoeg bijleren om slimmer te worden.”

Maar sowieso verwacht Wuyts niet dat deze chatbot op korte termijn de advocaat zal vervangen. “Ik zie bijvoorbeeld grote problemen voor de interpretatie van juridische teksten. Zo zal hij de juiste volgorde van de rechtsregels moeten kennen om te weten welk wetsartikel voorrang krijgt op een ander als deze elkaar tegenspreken. En rechtswetenschappelijk onderzoek volgens de regels van de kunst? Daar staan we nu nog ver vanaf. Al sluit ik niet uit dat het er ooit zal komen.”

Wat er ook van zij, op dit moment is het toch nog vrij makkelijk voor leerkrachten om te voorkomen dat studenten ChatGPT gebruiken voor hun huiswerk: gewoon vragen waarbij wat meer interpretatie nodig is en ze vallen snel door de mand. “Of je kan hen na het afgeven van het huiswerk een toelichting vragen”, zegt Wuyts. “Dat is iets waar we op dit eigenste moment ook over nadenken binnen de universiteit: hoe gaan we daarmee om? Evident zal het niet zijn, het is een beetje te vergelijken met de introductie van de zoekmachine of het internet zelf. Ook die innovaties hebben we een plaats moeten geven. Dat zal nu niet anders zijn.”