Studie naar betrouwbaarheid van AI-evaluatie in tandheelkunde

Onderzoekers vergeleken zes grote taalmodellen (LLMs) met ervaren tandartsen bij het evalueren van mondzorgadvies. DeepSeek-V3 en Doubao-1.8-Pro presteerden het sterkst in een rubric met criteria als wetenschappelijke nauwkeurigheid, logische coherentie, klinische bruikbaarheid, terminologie en volledigheid. GPT-5, Gemini 3, Qwen3-Max en Kimi K2 presteerden ook goed, maar met meer variatie. De onderzoekers gebruikten negen vragen over mondzorg op basis van FDI World Dental Federation-materiaal, waaronder thema's als mondzorg voor zuigelingen, mondgezondheid in zwangerschap, droge mond bij ouderen, preventie van mondaandoeningen en tandtrauma.

Ai-rechters minder betrouwbaar dan menselijke experts

De mate van overeenstemming tussen de twee menselijke tandartsen was hoog, wat wijst op sterke consistentie in deskundig oordeel. Tussen de drie AI-evaluatoren was de consistentie veel lager, en de overeenstemming tussen AI-evaluatoren en menselijke tandartsen was zeer slecht. De AI-evaluatoren beoordeelden antwoorden systematisch strenger dan menselijke experts, maar onderkenden desondanks niet betrouwbaar enkele klinisch belangrijke omissies, met name in preventief advies en begeleiding voor patiëntengroepen met hoger risico. De onderzoekers suggereren dat dit voortkomt uit een beperking in hoe huidige LLMs klinische informatie evalueren: ze geven mogelijk te veel gewicht aan vlotheid en algemene volledigheid, en te weinig aan het klinisch belang van risico's en patiëntspecifieke waarschuwingen.

Toepassingen en grenzen van AI in mondzorg

De bevindingen suggereren dat huidige LLMs potentieel hebben als hulpmiddelen voor gestandaardiseerde voorlichting over mondgezondheid en ondersteuning van patiëntenvoorlichting, vooral waar onmiddellijke toegang tot tandartsen beperkt is. Echter, het onderzoek waarschuwt sterk tegen vertrouwen op AI-systemen alleen voor evaluatie van de kwaliteit of veiligheid van klinisch advies. De onderzoekers concludeerden dat huidige 'AI-als-rechter'-frameworks geen betrouwbare vervanger zijn voor deskundig menselijk toezicht in de tandheelkunde. Toekomstige systemen zouden zich minder op taalvlotheid moeten richten en meer op klinisch redeneren, patiëntveiligheid en op bewijzen gebaseerde besluitvorming.