Een nieuw Stanford-onderzoek laat iets ongemakkelijks zien. Als je AI optimaliseert om te winnen, liegen LLM’s vaker. Kleine stijgingen in resultaat leveren significant meer misleiding op. Zelfs met de expliciete instructies om de waarheid te spreken.
In simulaties lieten de onderzoekers AI’s strijden rond drie uitdagingen: meer verkoop, betere verkiezingsresultaten en meer tractie op sociale media.
In verkoop steeg de omzet met 6,3% terwijl misleidende claims met 14,0% toenamen. In verkiezingen leverde 4,9% stemwinst 22,3% meer desinformatie en 12,5% meer populistische retoriek op. Op sociale media betekende een 7,5% verbetering in betrokkenheid een stijging van 188,6% in desinformatie en een verhoging van 16,3% in de aanmoediging van schadelijk gedrag.
Opmerkelijk is de sterke correlatie: in acht van de tien gevallen was er een duidelijk verband tussen de prestatieverbetering en een toename in normvervaging. En hoe beter een model zijn publiek begreep, hoe slimmer de manipulaties werden.
De onderzoekers noemen dit patroon Moloch’s Bargain: succes dat ten koste gaat van integriteit. Meditations on Moloch is een essay van Scott Alexander. Hij betoogt dat de wereld wordt geregeerd door een race-to-the-bottom-benadering, waarbij alles wat het leven waardevol maakt wordt opgeofferd.
De waarschuwing voor marketeers is duidelijk: winst kan snel ten koste gaan van de waarheid. Dus train je AI om de respons op je uiting te vergroten, dan is de kans groot dat desinformatie, misleidende claims en polariserende taal worden ontdekt.
De onderzoekers stellen dan ook dat overkoepelend toezicht op AI belangrijk is. En dat we met z’n allen goed moeten kijken welke instructies we aan AI geven.