wetenschap

Nieuw algoritme vult Wikipedia aan op basis van tweets

1 © kos

Onderzoekers van de Universiteit van Amsterdam hebben een algoritme ontwikkeld dat voorspelt welke opkomende onderwerpen dusdanig in de belangstelling staan dat ze een eigen Wikipedia-artikel verdienen. Het algoritme maakt daarvoor gebruik van Twitter.

De onderzoekers passen de bestaande 'named entity recognition'-technologie toe in combinatie met een zelfontwikkeld algoritme om mensen, locaties en organisaties te herkennen die nog niet op Wikipedia staan maar dat wel zouden verdienen. De software leest tweets uit en bepaalt eerst of de inhoud ervan al op Wikipedia terug te vinden is. Wanneer ze over al bekende dingen gaan en qua taalgebruik van een voldoende niveau zijn, worden ze door het algoritme beschouwd als voorbeelden van hoe Twittergebruikers over onderwerpen schrijven die al op Wikipedia staan.

Zelflerend
Het algoritme kijkt onder andere naar criteria als hoofdlettergebruik en de lengte en volgorde van woorden om te leren hoe Twittergebruikers formuleren en bij welk Wikipedia-lemma die formuleringen horen. Het systeem is zelflerend: hoe meer voorbeelden het algoritme aan het 'named entity recognition'-systeem voorschotelt, hoe beter het in staat is de patronen te herkennen bij tweets die over voor Wikipedia onbekende onderwerpen gaan.

Die kennis wordt vervolgens toegepast op Twitterberichten die niet herkend worden als tweets met een geassocieerd Wikipedia-lemma. De technologie stelt daarna vast of een tweet over bijvoorbeeld een persoon, locatie of organisatie gaat. Op het moment dat een van die dingen vaak genoeg op dezelfde manier de revue passeert op Twitter, zal het systeem vaststellen dat het gaat om een onderwerp dat genoeg onder de aandacht van Twittergebruikers is gekomen om een eigen Wikipedia-lemma te rechtvaardigen.

Live-versie
Het algoritme, dat als werktitel 'Unsupervised Pseudo-ground Truth' heeft, werkt mmoenteel bij mensen, locaties en organisaties. Maar met weinig aanpassingen kan het ook werken om bijvoorbeeld titels van boeken en films te herkennen. Het zal in de praktijk vooral nut hebben voor trendwatchers en mensen die bijdragen aan Wikipedia. David Graus, promovendus bij de Universiteit van Amsterdam en hoofdontwikkelaar van het algoritme, stelt tegenover Tweakers dat hij door wil gaan met de ontwikkeling en een live-versie van het algoritme online wil zetten, maar wanneer dat gaat gebeuren, is nog niet bekend. Ook zijn er plannen om in de toekomst het algoritme opensource te maken.

nieuws

zine