Forskare utvärderar ChatGPT:s prestanda i att sammanfatta medicinska sammanfattningar

I en nyligen publicerad studie publicerad i The Annals of Family Medicine utvärderade forskare effekten av Chat Generative Pretrained Transformer (ChatGPT) för att sammanfatta medicinska sammanfattningar för att hjälpa läkare. Studien syftade till att fastställa kvaliteten, noggrannheten och partiskheten i ChatGPT-genererade sammanfattningar, och ge insikter om dess potential som ett verktyg för att smälta stora mängder medicinsk litteratur mitt i tidsbrister som vårdpersonal möter.

Höga betyg för kvalitet och noggrannhet

Studien använde ChatGPT för att kondensera 140 medicinska sammandrag från 14 olika tidskrifter, vilket minskade innehållet med i genomsnitt 70 %. Trots vissa felaktigheter och hallucinationer som upptäckts i en liten bråkdel av sammanfattningarna, satte läkarna betyg på sammanfattningarna högt för kvalitet och noggrannhet. Resultaten tyder på att ChatGPT har potentialen att hjälpa läkare att effektivt granska medicinsk litteratur och erbjuda kortfattade och korrekta sammanfattningar mitt i den överväldigande mängden information.

Forskare valde ut 10 artiklar från var och en av 14 tidskrifter som täcker olika medicinska ämnen och strukturer. De gav ChatGPT i uppdrag att sammanfatta dessa artiklar och utvärderade de genererade sammanfattningarna för kvalitet, noggrannhet, partiskhet och relevans inom tio medicinska områden. Studien fann att ChatGPT framgångsrikt kondenserade medicinska sammanfattningar med i genomsnitt 70 %, vilket fick höga betyg från läkarbedömare för kvalitet och noggrannhet.

Konsekvenser för hälso- och sjukvård

Trots de höga betygen identifierade studien allvarliga felaktigheter och hallucinationer i ett litet antal sammanfattningar. Dessa fel sträckte sig från utelämnade kritiska data till feltolkningar av studiedesign, vilket potentiellt skulle kunna förändra tolkningen av forskningsresultat. ChatGPT:s prestanda när det gällde att sammanfatta medicinska sammanfattningar ansågs dock vara tillförlitliga, med minimal bias observerad.

Även om ChatGPT visade stark anpassning till mänskliga bedömningar på tidskriftsnivå, var dess prestation när det gällde att fastställa relevansen av enskilda artiklar för specifika medicinska specialiteter mindre imponerande. Denna diskrepans framhävde en begränsning i ChatGPT:s förmåga att exakt identifiera relevansen av enstaka artiklar inom det bredare sammanhanget av medicinska specialiteter.

Studien ger värdefulla insikter om potentialen hos AI, särskilt ChatGPT, för att hjälpa läkare att effektivt granska medicinsk litteratur. Medan ChatGPT visar löfte när det gäller att sammanfatta medicinska sammanfattningar med hög kvalitet och noggrannhet, behövs ytterligare forskning för att ta itu med begränsningar och förbättra dess prestanda i specifika medicinska sammanhang.

Framtida forskning kan fokusera på att förfina ChatGPT:s förmåga att känna igen relevansen av enskilda artiklar för specifika medicinska specialiteter. Dessutom kan ansträngningar för att mildra felaktigheter och hallucinationer i de genererade sammanfattningarna ytterligare förbättra användbarheten av AI-verktyg i hälsovårdsmiljöer.

Källa: https://www.cryptopolitan.com/chatgpt-in-summarizing-medical-abstracts/