Hoe meet je iets wat altijd verandert? De uitdaging van het evalueren van generatieve AI

Thema:
Artificiële intelligentie
12 februari 2026

Waar we AI in de begindagen vooral gebruikten om feitjes op te noemen of teksten samen te vatten, geven we AI-systemen een steeds belangrijkere rol in ons leven en werk. Bij de inzet van deze tools in organisaties is dan de grote vraag: hoe evalueer je dat je AI-tool doet wat deze moet doen? De aard van taalmodellen maakt dat dit een complexere vraag is dan bij traditionele software. TNO ontwikkelt samen met organisaties praktische meetinstrumenten die helpen grip te krijgen op AI-prestaties.

De AI die altijd een antwoord heeft

"Stel je voor dat een gemeente een AI-chatbot op zijn website heeft, waar een inwoner naar de openingstijden van het gemeentehuis vraagt", schetst Marianne Witte-Schaaphok, consultant verantwoorde AI bij TNO, een willekeurige situatie. "Als de chatbot deze informatie niet heeft, is de kans groot dat je toch een antwoord krijgt. Want het achterliggende taalmodel verzint dan gewoon informatie."

Met het voorbeeld toont ze een van de fundamentele verschillen aan tussen een AI-taalmodel en traditionele software. Een database geeft een foutmelding als informatie ontbreekt. Maar een AI-model produceert gewoon een plausibel klinkend antwoord. Een antwoord dat wellicht juist is, maar misschien ook niet. Dit maakt evaluatie van AI-tools cruciaal en tegelijkertijd zeer complex.

Hoe evalueer je een black box die je niet begrijpt?

"De modellen zijn zo groot, hoe ze tot een antwoord komen, kunnen we eigenlijk niet beredeneren", legt Marianne uit. Het gemeentehuis-voorbeeld lijkt eenvoudig, maar het laat de complexiteit van AI-evaluatie goed zien. De modellen zijn moeilijk voorspelbaar en de resultaten hoeven zich niet te houden aan bronnen. Dit maakt het evalueren op juistheid al een lastige opgave. "Wil je ook evalueren op vooroordelen of discriminatie dan wordt de vraag nog complexer", zegt Marianne.

De 6 obstakels voor betrouwbare evaluatie

Marianne identificeerde met haar collega's 6 cruciale uitdagingen waar organisaties tegenaan lopen bij het evalueren van hun AI-tools, namelijk:

Zelfs ontwikkelaars kunnen niet precies uitleggen hoe hun modellen werken. De systemen zijn te groot en te complex om volledig te doorgronden. Je kunt alleen de output beoordelen, niet hoe het systeem tot dit antwoord is gekomen.

Stel dezelfde vraag 2 keer en je krijgt 2 verschillende antwoorden. Een taalmodel voorspelt steeds het volgende woord in een zin. Variatie zit dus ingebakken in de manier waarop het systeem functioneert. Dit gebrek aan consistentie in de output maakt een robuuste evaluatie lastig.

Een LLM is geen rekenmachine waarbij het antwoord goed of fout is. Het gaat vaak om samenvattingen, beschrijvingen, uitleg. Tussen de vele variaties van deze antwoorden kunnen er meerdere zijn die je als correct kunt categoriseren. Het maken van een dataset van vragen en correcte antwoorden om op te toetsen is dus lastig. Hoe ga je hiermee om in een evaluatie?

Vanwege de complexiteit speelt de mens een belangrijke rol in de evaluatie. Maar de vraag wat wel of niet een goed antwoord is, wordt nog complexer als je beseft dat de ene persoon een antwoord als goed kan beschouwen terwijl het voor de ander niet volstaat. "5 experts kunnen 5 verschillende meningen hebben over wat een 'goed' antwoord is", zegt Marianne. Deze menselijke subjectiviteit maakt objectieve evaluatie extra lastig.

Mensen die AI-nieuws volgen, lezen waarschijnlijk regelmatig hoe een nieuwe update van een taalmodel scoort op een scala aan benchmarks. De vraag is echter wat deze scores ons precies zeggen. De kwaliteit van de datasets schiet vaak tekort, het is niet altijd duidelijk wat deze benchmarks precies meten en veel zijn gericht op Amerikaanse context.

Het feit dat taalmodellen steeds 'slimmer' worden, betekent bovendien dat ook de benchmarks complexer moeten worden. "Je ziet nu al dat bepaalde modellen 100% scoren op benchmarks omdat de modellen meer kunnen dan wat de benchmarks toetsen", waarschuwt Marianne. Of zelfs dat de modellen de juiste antwoorden voor de tests al tijdens hun training hebben gezien, waardoor de benchmark dus niet nieuw genoeg is.

Er is een grote hoeveelheid verschillende benchmarks. Vaak kiezen producenten van taalmodellen zelf welke benchmark ze gebruiken en worden de resultaten als slimme marketing ingezet. Ook wordt er vaak geen rekening gehouden met de context waarin een model gebruikt kan worden. Met andere woorden, wellicht is een model met lage score op een bepaalde benchmark wel prima geschikt voor een specifieke taak. "Door de grote variatie in toepassing van benchmarks is het voor partijen moeilijk om te kunnen beoordelen wat een model daadwerkelijk kan", constateert Marianne.

Verantwoorde AI die werkt

TNO bouwt aan verantwoorde AI die werkt: systemen die niet alleen effectief maar ook ethisch zijn. Verantwoorde AI versterkt de mens, vergroot maatschappelijke impact en houdt de controle bij de gebruiker. Europese waarden als privacy en veiligheid maken AI juist bruikbaarder en betrouwbaarder, en zorgen voor brede acceptatie in de samenleving.

Een herhaalbare evaluatie-toolkit, voor elke context

TNO werkt samen met organisaties aan een evaluatie-toolkit die ze kunnen inzetten om robuuste evaluatie op hun AI-tools te doen. Dit moet resulteren in een zogenoemde 'pipeline' met robuuste testen en evaluatiemethoden die op de juiste momenten kunnen worden ingezet. Want er is niet één magische test of methode die altijd werkt. De toolkit kan organisaties daarnaast helpen bij de vraag: welke evaluatiemethode gebruik ik wanneer?

Je kunt bijvoorbeeld kwantitatieve evaluatie doen met indicatoren en benchmarks, maar ook een evaluatie met mensen die de output beoordelen. "In veel toepassingen in de publieke sector zal je dat moeten doen, omdat er zo'n grote contextafhankelijkheid is", legt Marianne uit. Daarnaast kun je ook taalmodellen inzetten om andere taalmodellen te evalueren. "Je hebt eigenlijk alle methodes nodig, afhankelijk van de context", concludeert Marianne.

"Nadat je de juiste data, de juiste indicatoren en de juiste benchmarks hebt om mee te testen, wil je ook dat je test consistent en herhaalbaar is", zegt Marianne. "Zodat je kunt blijven monitoren en verschillende situaties, bijvoorbeeld nieuwe modellen, goed kunt vergelijken."

De 5 eigenschappen om te evalueren

Er zijn 5 thema's waar een robuuste evaluatie-toolkit naar moet kijken:

Dit is de basisvraag. Doet het wat het moet doen? Een ogenschijnlijk simpele vraag die door de aard van taalmodellen behoorlijk complex kan worden. Hier valt nog de bredere vraag onder of het systeem ook echt bijdraagt aan het beoogde doel.

In hoeverre is het model eerlijk en blijven bepaalde vooroordelen of discriminatie buiten de output? Hiervoor is een universele standaard moeilijk te maken, want het is erg cultureel en contextafhankelijk. "We hebben inmiddels een Nederlandse versie van een bias-benchmark gemaakt, specifiek voor Nederlandse culturele vooroordelen", vertelt Marianne. "Die is ook met hulp van crowdsourcing in Nederland verder verbeterd." Dit soort middelen zijn essentieel, zeker als taalmodellen voor publieke dienstverlening gebruikt gaan worden.

Hoeveel energie en water kost het model eigenlijk? "Er is best veel discussie geweest over de energie die nodig is voor het trainen van modellen", zegt Marianne. "Zeker als AI standaard onderdeel wordt van een werkproces, is dit een belangrijk element."

Waarmee is het model getraind? Hoe komt het tot antwoorden? "Veel modellen zijn nu niet transparant over waarmee ze getraind zijn", zegt Marianne. "Dit maakt het extra lastig om bepaalde output te herleiden."

Naast de technische kant zijn ook de sociale, ethische en organisatorische aspecten essentieel voor de evaluatie. De balans tussen het doel, de waarden, de (financiële) middelen en genomen risico's is hierbij belangrijk. Wat is de impact van het gebruik van het algoritme en wat mag goede AI eigenlijk kosten voor een organisatie en de maatschappij?

Bij al deze thema's draait het om consistentie voor goede evaluatie. "Je moet appels met appels kunnen vergelijken", benadrukt Marianne. Alleen met een reproduceerbare aanpak kun je écht meten of een nieuw model beter presteert dan het vorige, of dat bijvoorbeeld de vooroordelen inderdaad zijn verminderd na een aanpassing.

Meer autonomie vraagt om beter evalueren

Een inwoner die voor een dichte deur staat door verzonnen openingstijden komt hier wel overheen. Maar wat als de gevolgen groter zijn? "Onlangs las ik een verhaal van een softwareontwikkelaar bij wie zijn AI-programmeertool een hele database had verwijderd", vertelt Marianne. Het systeem twijfelde niet, het voerde gewoon uit. "Gelukkig was de database in dit geval nog terug te halen, maar het is goed in te denken hoe groot de gevolgen hadden kunnen zijn."

"Op het moment dat je deze systemen toegang geeft tot andere systemen wordt het belang dat het alleen doet wat het mag doen heel groot", waarschuwt Marianne. Denk aan systemen die toegang hebben tot je bankgegevens, databeheer of persoonsgegevens. In zulke gevallen wil je heel zeker weten dat zo'n systeem goed geëvalueerd is. Ook komen er vanuit wetgeving steeds meer eisen. De Europese AI Act verplicht organisaties aan te tonen hoe hun modellen presteren.

"Context is alles", besluit Marianne. "Bij een brainstormtool die je met collega's gebruikt mag de lat wat lager liggen dan bij een tool die medisch advies geeft. Evaluatie moet dan ook meeschalen."

Samen bouwen aan betere evaluatie

TNO werkt graag samen met nieuwe partners om AI-evaluatie verder te ontwikkelen. Organisaties met complexe uitdagingen zijn hierbij zeer interessant. Denk aan toepassingen in de zorg of veiligheid waar fouten grote gevolgen kunnen hebben.

Neem contact op met TNO om te verkennen hoe evaluatie de sleutel kan zijn tot succesvolle AI-implementatie in je organisatie.

Samen bouwen aan verantwoorde AI-evaluatie

TNO ontwikkelt uitgebreide hulpmiddelen die organisaties helpen om AI verantwoord te implementeren op alle fronten. We zoeken partners om samen praktische instrumenten te ontwikkelen voor:

  • Evaluatie van AI-systeemprestaties - technische toetsing en kwaliteitsbewaking
  • Kritisch denken bij gebruikers - meetinstrumenten en ondersteuningsfuncties voor medewerkers
  • Governance-structuren - kaders voor verantwoord AI-beleid in organisaties

Samen zorgen we dat generatieve AI een kracht voor positieve transformatie wordt in jouw organisatie.

Maak kennis met de expert

  • Marianne Witte-Schaaphok

    Consultant verantwoorde AI

Laat je verder inspireren

68 resultaten, getoond 1 t/m 5

Balans tussen scepsis en blind vertrouwen: kritisch denken als sleutel tot verantwoorde én effectieve inzet van GenAI

Informatietype:
Insight
14 januari 2026
TNO werkt samen met grote organisaties aan de ontwikkeling van een ‘critical thinking toolbox’ die medewerkers helpt kritisch te denken bij het gebruik van GenAI.

Van reactief naar proactief: Hoe organisaties grip krijgen op GenAI-governance

Informatietype:
Insight
16 december 2025

Sterke stijging gebruik generatieve AI door overheid

Informatietype:
Nieuws
3 december 2025

Hoe TNO de weg wijst naar soevereine, verantwoorde Nederlandse AI

Informatietype:
Insight
23 oktober 2025

TNO’s visie op verantwoorde AI die werkt

Informatietype:
Artikel