Ny studie: AI-granskare kan manipuleras med upprepade revisioner – utan att forskningskvaliteten förbättras
AI-granskare av forskning kan luras med upprepade ändringar – kvaliteten ökar inte.
När granskaren själv behöver granskas
Det finns något nästan paradoxalt i situationen: AI-system som tränats på vetenskaplig litteratur används nu för att avgöra vilken ny forskning som är värd att publicera. I teorin låter det effektivt – den ständigt växande volymen av inlämnade artiklar är ett reellt problem för konferenser och tidskrifter världen över. Men enligt en ny studie från 2025 års ACL Rolling Review är verkligheten betydligt mer komplicerad.
Studien, som undersökte hur väl AI-granskningar håller måttet, fann att överensstämmelsen med mänskliga bedömare är begränsad – och att resultaten varierar kraftigt beroende på vilka instruktioner som ges och vilken modell som används. Det är i sig ett problem. Om en och samma artikel kan få vitt skilda bedömningar beroende på hur frågan ställs till AI:n, vad säger då bedömningen egentligen om artikelns vetenskapliga kvalitet?
Spelet med återkopplingsslingor
Ännu mer illavarslande är studiens fynd om manipulation. Forskarna visade att författare kan använda en iterativ arbetsprocess för att systematiskt förbättra sina poäng: AI:n granskar ett utkast, författaren reviderar texten utifrån återkopplingen, och processen upprepas. Resultatet? Upp till 35 procent av artiklarna fick statistiskt sett högre poäng – utan att den faktiska vetenskapliga kvaliteten nödvändigtvis förbättrades.
Det är ett elegant sätt att sätta fingret på ett grundläggande problem. Om ett system går att optimera mot utan att det underliggande innehållet förbättras, mäter systemet fel sak. Det är inte ett nytt fenomen inom mjukvaruutveckling – vi ser det i allt från sökmotoroptimering till spelifierade produktmått – men inom vetenskaplig publicering får det särskilt allvarliga konsekvenser. Forskning som publiceras formar i förlängningen vad vi vet, vad som finansieras och vad som byggs vidare på.
En strukturell utmaning, inte bara ett tekniskt fel
Det vore enkelt att avfärda problemen som barnsjukdomar hos en omogen teknik. Men jag tror det handlar om något mer strukturellt. AI-system är i grunden mönsterigenkänning – de lär sig vad som ser ut som bra forskning, inte nödvändigtvis vad som är bra forskning. Skillnaden är subtil men avgörande.
Detta kopplar till en bredare insikt som växer fram inom AI-tillämpningar i kunskapsintensiva miljöer: mänsklig tillsyn är inte ett tillfälligt komplement i väntan på att AI:n ska bli bättre – det är en permanent och nödvändig del av systemdesignen. Precis som högskolelärare i pedagogiska sammanhang betonar vikten av kritisk granskning och mänskligt omdöme när AI används i undervisningen, gäller samma princip för vetenskaplig publicering.
Vetenskaplig granskning handlar inte bara om att kontrollera att metodavsnittet ser korrekt ut. Det handlar om att bedöma om en hypotes är meningsfull, om ett bidrag är genuint nytt, om slutsatserna är rimliga givet det forskningsfält de skrivs in i. Det är djupt kontextuell kunskap som kräver år av ämnesspecialisering – och det är precis den sortens bedömning som nuvarande AI-system har svårast att göra tillförlitligt.
Möjligheter finns – men kräver ärlig design
Jag vill vara tydlig: jag tror inte att AI saknar plats i den vetenskapliga publiceringsprocessen. Tvärtom – det finns genuina möjligheter att använda AI för att flagga uppenbara formella brister, kontrollera referenser, identifiera potentiella intressekonflikter eller prioritera inlämningar för mänskliga granskare. Det är värdefullt avlastningsarbete.
Men det kräver att vi är ärliga om vad systemen faktiskt kan och inte kan. Att presentera en AI-genererad poäng som en tillförlitlig kvalitetsbedömning – när studier visar att den går att manipulera och sällan stämmer med experters omdömen – är inte att använda AI som ett verktyg. Det är att låta ett opålitligt verktyg fatta beslut som borde vila på mänsklig expertis.
Den vetenskapliga publiceringsprocessen är en av de viktigaste mekanismerna vi har för att skilja välgrundad kunskap från spekulation. Att bygga robusta AI-stödsystem för den processen är ett viktigt och spännande ingenjörsproblem. Men vi är inte där ännu – och det är viktigt att erkänna det.
Vår analys
Den här studien är viktig inte bara för vetenskapliga konferenser utan som ett tidigt varningstecken för ett bredare mönster: när AI-system introduceras i bedömningsprocesser utan tillräcklig förståelse för deras begränsningar riskerar vi att skapa incitament som optimerar mot synbara egenskaper snarare än verkligt värde.
35 procent är en anmärkningsvärt hög andel artiklar som kan få höjda poäng utan kvalitetsförbättring – det är inte en marginell sårbarhet utan ett systemiskt problem. Om detta beteende normaliseras bland forskare kommer trycket att öka på konferenser att antingen förbättra sina AI-system dramatiskt eller återgå till renodlad mänsklig granskning.
Jag tror den troligaste vägen framåt är hybridmodeller där AI hanterar strukturerade deluppgifter medan mänskliga granskare behåller det slutgiltiga omdömet. Men det kräver transparens om vad AI faktiskt gör i processen – något som hittills ofta saknas. Den som bygger nästa generations granskningssystem har ett stort ansvar att designa för tillförlitlighet, inte bara effektivitet.