ChatGPT en Gemini volgen de wet beter dan rechters — maar eerlijk?

Geschreven door Matthijs

February 16, 2026 19:19

Een nieuwe academische analyse stelt dat ChatGPT en Google Gemini wetteksten strikter toepassen dan menselijke rechters in oefencases. Het onderzoek is deze week gedeeld door een internationaal team van juristen en datawetenschappers. De tests zijn uitgevoerd in een gecontroleerde setting met gestandaardiseerde scenario’s. Dit debat raakt Europese digitalisering en de gevolgen voor het bedrijfsleven en de rechtsstaat, omdat inzet van algoritmen in de rechtspraak dichterbij komt.

Modellen volgen wet strikter

In de onderzochte casussen kozen ChatGPT en Gemini vaker voor de letter van de wet dan voor een afweging op basis van billijkheid. Dat werkt vooral bij duidelijke regels en vaste definities in wetboeken. Het laat zien dat generatieve modellen goed zijn in het herkennen en herhalen van patronen uit juridische teksten. Daardoor lijken ze “consequenter”, maar dat is niet hetzelfde als beter rechtspreken.

De systemen presteren het best met duidelijke instructies en bronverwijzingen. Zonder context kunnen ze uitzonderingen in de wet missen, zoals hardheidsclausules of belangenafwegingen. Ook kunnen ze de verkeerde rechtsbron toepassen wanneer jurisdictie of taal niet expliciet is. Een strak format met feiten, rechtsvraag en toepasselijk kader helpt, maar lost dit niet volledig op.

Wat wél werkt, is modellen laten citeren uit actuele bronnen en hen dwingen tot controle van stappen. Tegelijk blijven er zwaktes, zoals verouderde kennis en “hallucinaties” (bedachte feiten of arresten). Dit maakt automatische besluitvorming ongeschikt voor echte vonnissen. Het is hooguit bruikbaar als hulpmiddel voor research en het ordenen van argumenten.

Rechtvaardigheid blijft ongrijpbaar

Rechtvaardigheid vraagt meer dan het volgen van regels. Rechters wegen omstandigheden, proportionaliteit en maatschappelijke gevolgen mee. Generatieve AI heeft moeite met zulke open normen en context, zeker bij botsende grondrechten. Daardoor kan een formeel juist antwoord toch onbillijk uitpakken.

Rechtvaardigheid is méér dan de letter van de wet: het weegt omstandigheden, proportionaliteit en gelijke behandeling.

Er zijn ook risico’s op vooringenomenheid, bijvoorbeeld door scheve trainingsdata. In Europa gelden de AVG en het Handvest van de grondrechten, die discriminatie verbieden. De AVG verlangt dataminimalisatie en passende waarborgen bij geautomatiseerde besluitvorming. Voor publieke diensten geldt bovendien een motiveringsplicht: beslissingen moeten uitlegbaar zijn.

Uitlegbaarheid is bij grote taalmodellen beperkt, omdat hun interne werking niet transparant is. “Waarom” een model een conclusie trekt, is lastig te verantwoorden in juridisch bruikbare termen. Daarom blijft menselijke toetsing noodzakelijk, zeker waar grondrechten of hoge boetes spelen. Zonder verantwoording is inzet in de rechtsstaat niet houdbaar.

EU-regels sturen digitalisering rechtspraak

De AI-verordening (AI Act) classificeert systemen voor juridische beslisondersteuning als hoog risico, op het moment van schrijven. Dat betekent strenge eisen rond risicobeheer, datakwaliteit, transparantie, logging en menselijk toezicht. Ook geldt documentatieplicht over de werking en beperkingen van het systeem. Niet-naleving kan leiden tot forse boetes in de EU.

Daarnaast hebben Europese rechters te maken met de ethische charter voor AI in de rechtspraak van de Raad van Europa. Die stelt onder meer non-discriminatie, kwaliteit en controleerbaarheid centraal. Volledig geautomatiseerde uitspraken zijn daardoor politiek en juridisch onwaarschijnlijk. De inzet richt zich op ondersteuning, niet op vervanging van de rechter.

Voor Nederlandse overheden en rechtbanken betekent dit impactassessments (DPIA’s), strikte aanbestedingseisen en veiligheid van data. Gegevens moeten worden versleuteld en zo veel mogelijk geanonimiseerd. Leveranciers van ChatGPT- of Gemini-varianten moeten aantoonbaar voldoen aan de AVG en de AI Act. Logging en auditability zijn nodig om beslissingen achteraf te kunnen controleren.

Nederlandse inzet blijft hulpmiddel

In Nederland lopen op het moment van schrijven vooral pilots met AI als ondersteuning. Denk aan het ordenen van dossiers, het zoeken in jurisprudentie en het samenvatten van zittingen. ChatGPT en Gemini kunnen zo tijd besparen in voorbereiding en administratie. Ze nemen geen beslissingen en schrijven geen vonnissen.

Advocatenkantoren en juridische afdelingen experimenteren met bedrijfsversies van taalmodellen. Daarbij gelden strenge privacyregels: voer geen herleidbare cliëntdata in en minimaliseer gevoelige informatie. Pseudonimisering en afgescheiden omgevingen (tenant isolation) zijn randvoorwaarden. Ook is het verstandig om modelantwoorden te laten verifiëren door een jurist.

Instellingen stellen richtlijnen op voor gebruik, bronnen en citeren. Ze bepalen wanneer generatieve AI is toegestaan, en wanneer niet. Training en bewustwording zijn nodig om fouten en datalekken te voorkomen. Zo blijft de technologie een bruikbaar, maar begrensd hulpmiddel.

Metingen en tests schieten tekort

De huidige benchmarks meten vooral letterlijke wetstoepassing en tekstbegrip. Ze zeggen minder over redelijkheid, proportionaliteit of deugdelijkheid van motivering. Open testen, zoals juridische benchmarksets, geven nuttige signalen maar dekken de praktijk niet volledig. Echte zaken zijn rommelig en hebben zelden één juist antwoord.

Modellen kunnen bovendien “hallucineren” of verouderde bronnen aanhalen. Een technische aanpak om dit te beperken is retrieval augmented generation (RAG): het model haalt eerst relevante documenten op en antwoordt daarna met verwijzingen. Dit verhoogt controleerbaarheid, maar garandeert geen juistheid. Fact-checking en broncontrole blijven verplicht.

Europese context vraagt testen in meerdere talen en rechtsstelsels. Prestaties verschillen per taal; Engels scoort vaak beter dan Nederlands. Lokale wetgeving, zoals procesrecht en bewijsregels, kan uitkomst sterk beïnvloeden. Zonder taalspecifieke en landspecifieke evaluaties is het risico op fouten groot.

Andere bekeken ook