Universiteit Utrecht

10/03/2024 | Press release | Distributed by Public on 10/03/2024 08:55

Datadiversiteit als basis voor betere taalmodellen

Datadiversiteit als basis voor betere taalmodellen

ERC Starting Grant voor onderzoek naar datadiversiteit in Natural Language Processing

3 oktober 2024
Dong Nguyen doet onderzoek naar Natural Language Processing

Dong Nguyen ontving in september een ERC Starting Grant van 1.5 miljoen euro voor haar onderzoek naar de invloed van datadiversiteit op de kwaliteit van taalmodellen. In haar DataDivers-project hoopt ze een manier te ontwikkelen om de diversiteit van een dataset nauwkeurig te meten en te onderzoeken hoe deze diversiteit het gedrag van een taalmodel beïnvloedt. Het doel: eerlijkere en robuustere taalmodellen door diversiteit centraal te stellen in hun training.

Pratende computers zijn al lang niet meer enkel een beeld uit sciencefictionfilms. Hoewel apparaten meestal niet letterlijk woorden uitspreken, zijn chatbots, automatische vertalingen en automatische moderatie op online platforms een dagelijkse realiteit. Voor Dong Nguyen, onderzoeker op het gebied van Natural Language Processing (NLP), komt dat goed uit: haar onderzoeksveld is relevanter dan ooit. NLP is een technologie die computers helpt om menselijke taal te begrijpen en gebruiken. Het vakgebied bestaat al sinds de jaren vijftig, maar heeft vooral de laatste vijf jaar een enorme sprong genomen, mede door de opkomst van generatieve AI. "De ontwikkelingen in het vakgebied gaan ontzettend snel. Daarom probeer ik onderzoeksvragen te identificeren die langer relevant zijn."

Kwaliteit boven kwantiteit

NLP-computermodellen, zoals het taalmodel achter ChatGPT, moeten uitgebreid getraind worden voordat ze gebruikt kunnen worden. Onderzoekers realiseren zich steeds meer dat de kwaliteit van de gebruikte data een grote invloed heeft op de prestaties van een taalmodel, vertelt Nguyen. "Als een model bepaalde stereotypen leert of slecht is in bepaalde taken, ligt dat vaak aan de data waarmee het model getraind is."

Op dit moment weten wetenschappers nog weinig over hoe trainingsdata het uiteindelijke gedrag van een taalmodel beïnvloedt. Nguyen verwacht dat datadiversiteit een belangrijke voorspeller is van het gedrag van taalmodellen. Hoe je deze diversiteit precies meet, is nog een open vraag, zegt ze. "Welke eigenschappen moet de data hebben, en hoe beïnvloeden die eigenschappen het model? Bevatten de teksten bijvoorbeeld verschillende onderwerpen, dialecten of schrijfstijlen?", vraagt Nguyen zich af. "Soms kun je met een kleinere, zorgvuldig samengestelde dataset een model beter trainen dan met een enorme hoeveelheid data."

Hoe train je een taalmodel?

Het trainen van een taalmodel bestaat uit verschillende fasen. Eerst wordt een grote dataset gebruikt, vaak bestaande uit internetdata, boeken of zelfs synthetisch gegenereerde teksten. Vervolgens wordt het model verder getraind met kleinere, specifiekere datasets. Bijvoorbeeld: als je een model wilt trainen om haatdragende taal te herkennen, geef je het voorbeelden van zowel haatdragende als niet-haatdragende teksten.

Datadiversiteit meten

In haar project DataDivers ontwikkelt Nguyen methoden om de diversiteit van datasets nauwkeurig te meten. Datadiversiteit is een breed begrip, en binnen NLP is er nog weinig onderzoek naar gedaan. "Diversiteit gaat niet alleen over representatie," zegt Nguyen, "maar ook over zaken als variatie in onderwerpen, schrijfstijlen en grammaticale constructies." Tijdens haar onderzoek wil ze leren van andere vakgebieden, zoals ecologie en sociale wetenschappen, waar al wel methoden zijn ontwikkeld om diversiteit te meten.

Nguyen zal vervolgens met experimenten onderzoeken hoe diversiteit in datasets de prestaties van taalmodellen beïnvloedt. Door modellen te trainen met datasets van wisselende diversiteitsniveaus, onderzoekt ze hoe datadiversiteit invloed heeft op de nauwkeurigheid van het model, hoe goed het met verschillende demografische groepen omgaat en hoe snel het nieuwe taken leert. Zo wil ze bepalen welke vormen van diversiteit van belang zijn.

Als een model bepaalde stereotypen leert of slecht is in bepaalde taken, ligt dat vaak aan de data waarmee het model getraind is.

In de laatste fase van het project wil Nguyen de manier waarop taalmodellen worden getraind aanpassen, zodat diversiteit vanaf het begin wordt meegenomen. Dit kan bijvoorbeeld door bepaalde datapunten in een dataset meer gewicht te geven. Ook de methode waarop data verzameld wordt, kan worden aangepast om diversiteit in de dataset te verbeteren.

Haatdragende taal

Datadiversiteit kan belangrijk zijn voor taalmodellen die bijvoorbeeld haatdragende taal op sociale mediaplatforms herkennen. Soms kunnen dit soort taalmodellen ongewenst gevoelig zijn voor patronen die er eigenlijk niet toe zouden moeten doen. Nguyen legt uit dat modellen soms ongewenste patronen oppikken, zoals het koppelen van namen of onderwerpen aan haatdragende uitspraken, terwijl die eigenschappen juist irrelevant zijn. Ze verwacht dat meer diverse trainingsdata kan helpen om dergelijke fouten te voorkomen.

Nguyen verwacht ook dat datadiversiteit computermodellen beter kan leren generaliseren - presteren met data die anders is dan de trainingsdata. Taalmodellen doen het nu bijvoorbeeld goed in standaardtaal, maar minder goed met dialecten. "Eigenlijk is dat net zoals wanneer je een nieuwe taal leert: wanneer je alleen maar nieuwsberichten leest, of berichten over sport, heb je een beperkte woordenschat en minder begrip van de taal op andere vlakken", legt Nguyen uit.

Eigenlijk kun je het leerproces van een taalmodel vergelijken met iemand die een nieuwe taal leert: wanneer je alleen maar nieuwsberichten leest, of berichten over sport, heb je een beperkte woordenschat en minder begrip van de taal op andere vlakken dan wanneer je gevarieerde teksten leest.

Over Dong

Na haar master Language Technologies bij Carnegie Mellon University is Dong verder gespecialiseerd in NLP. Bij de Universiteit Utrecht werkt Dong binnen de Natural Language Processing-groep, waarbinnen ze ook weer haar eigen lab heeft: het NLP and Society Lab. Hoe kun je nou sociale factoren van taalgebruik modelleren of analyseren? Samen met haar promovendi en UU-studenten analyseert ze bijvoorbeeld online gesprekken en onderzoekt of er signalen zijn die een gesprek goed of fout laten verlopen, om te zorgen dat gesprekken online beter kunnen verlopen. Of ze kijkt naar vragen als: hoe meet je of modellen 'fair' of eerlijk zijn? Wat voor stereotypen leren ze? Kunnen computermodellen bijvoorbeeld genderneutrale voornaamwoorden herkennen en begrijpen? Hoe evalueren we taalmodellen? Hoe kunnen we slim data selecteren om betere modellen te trainen? Dong Nguyen is ook lid van de Utrecht Young Academy.