Zondag 07/06/2020

De, en, in, van, op...: de 5.000 woorden die u dagelijks gebruikt

Beeld Wikimedia Commons/HandigeHarry

"Van het raam liet hij zijn blik zwijgend verder over haar schouder glijden. Plotseling knikte hij en schudde het glas van haar stoel." Deze twee zinnetjes representeren perfect een doorsnee Nederlandstalig romanfragment: ze bevatten de tien meest gebruikte woorden in proza.

Met welke woorden begin je wanneer je Nederlands gaat studeren? Het hangt er vanaf wat je doel is. In een gesprek met een Nederlandstalige heb je het meeste kans op de tussenwerpsels eh, hè, oké, hoor en ah te stuiten. Om Belgische krantenartikelen te begrijpen kom je al een heel eind verder met correctioneel, schepencollege, parket en federaal. Dat is wat het doorbladeren van 'A Frequency Dictionary of Dutch' (Routledge, 2014), samengesteld door Carole Tiberius en Tanneke Schoonheim, bijleert.

Tot voor kort dateerde het enige frequentiewoordenboek dat voor de Nederlandse taal voorhanden was, uit 1975. Maar taal leeft en groeit. Bijna veertig jaar later was het dan ook hoog tijd voor een frisse, nieuwe versie. Dankzij het onderzoek van computerlinguïst Carole Tiberius en lexicograaf Tanneke Schoonheim beschikken we nu over een frequentiewoordenboek dat, met woorden zoals internet, data en cool, accurater het taalgebruik van vandaag weergeeft.

Uit een verzameling van 300 miljoen Nederlandse woorden filterden de twee medewerkers van het Instituut voor Nederlandse Lexicologie in Leiden de 5.000 vaakst voorkomende. Tiberius en Schoonheim stelden een gevarieerd corpus samen dat vier genres omvat: proza, krantenartikelen, webmateriaal en gesproken Nederlands (uitgeschreven gesprekken, debatten en lezingen). In elk genre namen ze zowel teksten uit Nederland als België op. Hun frequentiewoordenboek geeft dus een algemeen overzicht voor de Nederlandse taal in al haar facetten. Toch bevat het ook een apart lijstje met woorden die typerend zijn voor het Nederlands dat in België gesproken wordt. Het komt vast niet als een verrassing dat allee, gij en goesting hier een hoge frequentiescore behaalden. Maar ook woorden als federaal en parket staan op het lijstje, wat dan weer treffend de dagelijkse besognes van ons land schetst.

Karakollenprobleem
Om de woordfrequentie te bepalen, gingen Tiberius en Schoonheim na in hoeveel documenten een woord voorkomt. De 5.000 woorden die in het woordenboek zijn opgenomen kwamen in minstens 99,9 procent van de documenten voor en konden daarom als 'hoogfrequent' geclassificeerd worden. Om het beruchte karakollenprobleem te voorkomen, werden alle onderzochte teksten opgedeeld in gelijke blokken van 2.000 woorden. Een karakol is een in zee levende kieuwslak. "De gemiddelde Nederlandstalige neemt dit woord niet bijzonder vaak in de mond. Maar als er in je tekstcorpus toevallig een uitgebreid artikel over karakollen zit, kan het woord zo een overtrokken waarde in het woordenboek krijgen", legt Tiberius de werkwijze uit.

Vlaamse woorden die Nederlanders niet gebruiken
1. Allee
2. Allicht
3. Amai
4. Awel
5. Correctioneel
6. Daarstraks
7. Federaal
8. Frank
9. Geraken
10. Gij/ge

Het woordenboek is opgedeeld in zes lijsten, waarbij elk woord voorzien is van een toepasselijke voorbeeldzin. De algemene kernwoordenlijst bevat de meest frequente woorden: de Nederlandse woordenhitlijst, zo je wil. "Deze woorden moet je zeker eerst leren wanneer je aan het Nederlands begint", zegt Tiberius. Met een score van 99,92 procent staat het lidwoord de op de eerste plaats.
Opmerkelijk is dat zelfs de geen volle 100 procent scoorde. Betekent dit dan dat er teksten bestaan waar het lidwoord geen enkele keer in voorkomt? "Waarschijnlijk niet. Uit onderzoek achteraf bleek dat de niet altijd als lidwoord is herkend door de computer. Er sluipen helaas altijd kleine foutjes in zo'n omvangrijk onderzoek", verklaart Tiberius.

Volgende in de algemene top tien van meestgebruikte Nederlandse woorden: en, in, van, op, zijn, het, een, voor en die. Het hoeft niet te verbazen dat dergelijke basiswoorden het meest gebruikt worden in het Nederlands, ook in het Engels en in het Frans staan respectievelijk the en le op nummer één.

Vervolgens zijn er de vier genrespecifieke frequentielijsten en één algemene lijst met woorden die wel tot de top 5.000 behoren maar niet specifiek zijn voor een bepaald genre. Zo wordt eh het vaakst gebruikt in spreektaal. Hoewel sommige gebruikers van het woordenboek Tiberius al meedeelden dat ze het gevoel hadden dat die eh intussen voorbijgestoken is door stopwoordje ja. "Een interessante opmerking. Zeker voer voor een vervolgonderzoek, dat er waarschijnlijk wel van zal komen aangezien taal blijft evolueren."

Contactclowns
Enkele woorden vielen aanvankelijk wel onder de categorie 'hoogfrequent', maar haalden het woordenboek niet. Zo schrijven Nederlandstalige internetgebruikers blijkbaar het web vol met hun greetz, maar is het woord niet terug te vinden in 'A Frequency Dictionary of Dutch'. Tiberius legt uit: "Ik kende het woord zelf niet en na enige rondvraag veel van mijn collega's ook niet. Misschien zijn wij niet de meest representatieve taalgebruikers, maar in elk geval helpen zulke woorden je niet vooruit als je Nederlands wilt leren."

Naast de 5.000 hoogfrequente woorden die 95 procent van de Nederlandstalige teksten en gesprekken dekken, zijn er natuurlijk ook nog een hoop laagfrequente woorden. Maar liefst 200.000 woorden van het Nederlands maken deel uit van deze overige 5 procent. Wat dacht u van prachtwoorden zoals contactclowns, meidenensemble en spaghettifeest? Ondanks hun lage frequentie verrijken zij zeker de Nederlandse taal, maar dat is dan weer voer voor gevorderden.

Kleuren die we het vaakst uitspreken
1. Rood
2. Zwart
3. Wit
4. Groen
5. Geel
6. Blauw
7. Grijs
8. Bruin
9. Roze
10. Paars

Meer over

Wilt u belangrijke informatie delen met De Morgen?

Tip hier onze journalisten


Op alle artikelen, foto's en video's op demorgen.be rust auteursrecht. Deeplinken kan, maar dan zonder dat onze content in een nieuw frame op uw website verschijnt. Graag enkel de titel van onze website en de titel van het artikel vermelden in de link. Indien u teksten, foto's of video's op een andere manier wenst over te nemen, mail dan naar info@demorgen.be.
DPG Media nv – Mediaplein 1, 2018 Antwerpen – RPR Antwerpen nr. 0432.306.234