Zelfs aan de beste pokerspeler kun je zien wanneer hij bluft.

Zelfs bij bètawetenschappelijke publicaties kun je uit het taalgebruik de kans afleiden dat de auteurs frauderen met hun data. In principe moet je een algoritme kunnen schrijven dat manusctripten hier op checkt, stellen Stanford-onderzoekers David Markowitz en Jeff Hancock.

Ze stellen dat wetenschappelijke fraudeurs geen haar beter zijn dan andere leugenaars, en instinctief proberen de aandacht af te leiden van hun bedrog.

Om die theorie te testen analyseerden ze 253 voornamelijk biomedische publicaties uit de PubMed-database die tussen 1973 en 2013 waren teruggetrokken wegens datamanipulatie. Ze vergeleken ze met 253 bonafide publicaties uit dezelfde tijdschriften en jaren, en met 62 publicaties die waren teruggetrokken om andere redenen, zoals ethische bezwaren.

Als meetlat gebruikten ze een zelfgemaakte ‘obfuscation index’(zeg maar versluieringsindex) die punten gaf voor onder meer onleesbaar taalgebruik, vakjargon en positieve uitingen.

In het Journal of Language and Social Psychology melden ze nu dat fraudeurs inderdaad gemiddeld hoger scoren. Het onderscheid is subtiel: zo ligt het gebruik van jargon gemiddeld 1,5% hoger. Maar per artikel zijn dat toch nog 60 moeilijke woorden extra. Op juichtermen bezuinigen fraudeurs juist, wellicht om te voorkomen dat de lezer er jeuk van krijgt en extra kritisch wordt.

Opvallend is ook dat fraudeurs gemiddeld méér literatuurverwijzingen geven. Volgens de auteurs doen ze dat misschien wel om te zorgen dat alles natrekken zo veel mogelijk tijd kost.

Ze denken overigens niet dat een eventueel anti-fraude-algoritme er snel zal komen. De huidige analyse is nog lang niet verfijnd genoeg en genereert veel te veel vals-positieve uitslagen. Bovendien is wetenschap altijd een kwestie van onderling vertrouwen geweest, en systematisch testen zou dat vertrouwen kunnen ondermijnen.

Of het ook werkt bij auteurs die niet in hun eigen taal schrijven is trouwens ook een leuke vraag. Kan zo’n algoritme verschil zien tussen bewust versluierend taalgebruik en onbewust beroerd Engels?

bron: Stanford