Kan ChatGPT vara behjälplig i logiska tester?
Varför ChatGPT kommer till korta när de svarar på objekt i ett logiskt test, och varför begränsad tillgång till verktyg som ChatGPT faktiskt hjälper testdeltagare att svara på ett kognitivt test.
Introduktion
Användare och testdeltagare av Masters tester har visat intresse för hur ChatGPT påverkar besvarandet av tester, särskilt kognitiva tester. På senaste tiden har vi fått frågor om ChatGPT och dess svar på logiska tester som ACE. Vi på Master International A/S kände också behovet av att förstå den här sociologiska tendensen och genomförde därför en undersökning för att jämföra den nuvarande AI-teknologins status med våra tester, med fokus på att jämföra ChatGPT med ACE. Syftet med vår undersökning och denna rapport är att belysa begränsningar och möjligheter med användningen av ChatGPT i testutveckling, utforska verktygets kapacitet och svara på frågor som testdeltagare och användare av våra lösningar kan ha om ChatGPT och ACE.
Artificiell intelligens (AI) har gjort stora framsteg inom naturlig språkbehandling på senare år, vilket möjliggjort att AI-modeller som ChatGPT kan delta i mänskliga konversationer. Även om ChatGPT imponerande nog kan generera sammanhängande svar, är det viktigt att förstå att det har inneboende begränsningar när det gäller logiskt tänkande. Denna artikel undersöker varför ChatGPT kan ha svårt att besvara logiska frågor i tester, trots dess imponerande språkfärdigheter.
En språkmodell
Det första att förstå är att ChatGPT (och alla stora språkmodeller - LLM) är en språkmodell, vilket innebär att ChatGPT i huvudsak är en omfattande databas med skriven information. Utifrån denna textdata har den lärt sig att konstruera meningar genom att använda statistiska modeller för att förutsäga det mest sannolika nästa ordet. Även om den är skicklig på att förstå och generera mänskligt språk saknar den förmågan att verkligt förstå eller tänka djupare. Modellen saknar verkliga erfarenheter, sunt förnuft och kontextuell förståelse, vilket är avgörande för att förstå komplexa logiska scenarier. Som en följd kan ChatGPT ha svårt med nyanserade logiska frågor som kräver abstrakt tänkande och kritiskt resonemang.
Känslighet för frågeformulering
Induktivt tänkande, förmågan att dra allmänna slutsatser från specifika exempel till bredare principer, är grundläggande inom logiskt tänkande. Även om ChatGPT kan generera svar baserade på befintliga mönster i data saknar den förmågan att dra allmänna principer eller dra slutsatser baserade på begränsad information. Denna begränsning hindrar ChatGPT från att hantera komplexa logiska frågor som kräver induktivt tänkande, vilket begränsar dess prestation på sådana testfrågor.
ChatGPT är mycket känslig för formuleringen och strukturen i inmatade frågor, och till och med små omskrivningar av samma fråga kan leda till olika svar. Detta belyser modellens brist på robusthet när det gäller att fånga den underliggande logiken. I motsats till mänskliga testdeltagare som kan förstå avsikten bakom en fråga, förlitar sig ChatGPT på mönster och statistiska samband i den presenterade frågan. Som ett resultat kan ChatGPT ha svårt att generalisera logiska begrepp över olika formuleringar, vilket leder till inkonsekventa eller felaktiga svar.
Åtgärder från Master
Begränsning av Microsoft Visual Search
Vid användning av Edge-webbläsaren kommer testdeltagaren normalt att se en liten ikon på bilder på webbsidor. Genom att klicka på ikonen kan de söka efter relaterade bilder på webben. Detta innebär att testdeltagare som använder Edge för att slutföra ACE och/eller CORE potentiellt kan söka efter liknande bilder på webben. Dessutom kan ikonen distrahera testdeltagare och påverka deras svar och resultatet av testet.
Vår undersökning har visat att diskussioner på webben om detta ämne är vanliga, även strax efter att Microsoft släppte denna funktion. Vi har kommit fram till att påverkan på testdeltagare genom att använda Microsoft Visual Search som det fungerar nu är begränsad, och det finns inget omedelbart hot eftersom de bilder som söks för närvarande är liknande men inte relaterade till ACE eller CORE. Det är mer en oro för att testdeltagaren distraheras när de slutför testet. Därför har vi implementerat kod på våra testsidor för att förhindra att Microsoft Visual Search-ikonen visas.
Begränsning av högerklick
Genom att ta bort möjligheten att högerklicka när man svarar på ett test påverkas särskilt två handlingar som vi identifierat som potentiella störningsmoment för testdeltagare.
För det första minskar möjligheten att kopiera och klistra in bilder i t.ex. en Google-sökning. Det sparar värdefull tid som inte behöver användas för att söka efter liknande bilder i syfte att få hjälp med testet. Detta gynnar testdeltagaren genom att minska tidsödande moment.
För det andra har begränsningen av kopiering-och-klistring-funktionen implementerats för att göra det svårare för en testdeltagare att ha två skärmar och kopiera text från ACE för att klistra in i ChatGPT. Det eliminerar inte helt risken att testdeltagare använder ChatGPT, men förhoppningsvis blir det svårare och det kan leda till att testdeltagaren avstår. Detta skulle i slutändan vara till deras fördel.
Sammanfattning
Även om ChatGPT har imponerande förmåga att generera språk, har den betydande begränsningar när det gäller att besvara logiska frågor i tester. Som en språkmodell saknar den verklig förståelse, resonemangsförmåga och kontextuell förståelse, vilket är avgörande för att korrekt besvara komplexa logiska scenarier. Modellens sårbarhet för flertydighet och bristen på förmåga att begära förtydliganden eller ställa uppföljningsfrågor hindrar dess prestation på nyanserade logiska frågor. Dessutom saknar ChatGPT förmåga till induktivt tänkande, vilket gör det svårt för modellen att generalisera logiska begrepp eller dra slutsatser baserade på begränsad information.
Dessutom är ChatGPT mycket känslig för formuleringen och strukturen i inmatade frågor, vilket leder till inkonsekventa eller felaktiga svar även vid små omskrivningar. Denna känslighet för frågeformulering belyser modellens bristande robusthet när det gäller att fånga den underliggande logiken. Dessutom kan modellens oförmåga att bearbeta visuell information hindra den från att effektivt svara på spatiala frågor eller frågor som kräver visuell förståelse.
Master International A/S erkänner dessa begränsningar och har vidtagit åtgärder för att minska incitamentet för testdeltagare att använda ChatGPT under sina tester. Åtgärder som begränsning av kopiering-och-klistring-funktionen och borttagande av Microsoft Visual Search-ikonen har genomförts för att försvåra för testdeltagare att använda externa resurser och eventuellt påverka testresultaten.
Det är värt att nämna att framtida versioner av GPT (och andra liknande modeller) arbetar med olika lösningar, som tillägg och mer specifik träning för olika områden, för att förbättra modellernas prestanda inom matematik och logik. Samtidigt bör det påpekas att problemet med att modellen hittar på fakta (eller "hallucinerar" som vissa kallar det) fortfarande är ett problem och att AI-forskarna inte fullständigt förstår varför. Master International A/S följer denna utveckling noggrant.
Slutligen är det viktigt att förstå att mänskliga testdeltagare fortfarande har övertaget när det gäller logiskt tänkande och kritiskt resonemang. Även om ChatGPT kan vara ett värdefullt verktyg för olika uppgifter når den inte upp till komplexiteten hos logiska tester. Att förstå begränsningarna hos ChatGPT är avgörande för både användare och testdeltagare, för att säkerställa rättvisa och korrekta bedömningar av logiska förmågor.
Ladda ner vårt engelska white paper på ämnet här: White paper