Bortom personlighetstester
Jämför AI-drivna personlighetstester med traditionella Big Five-metoder. Fördelar, begränsningar och etiska utmaningar i HR och rekrytering
Utvärdera AI-drivna personlighetstester mot traditionella självrapporterade Big Five-mått
Artificiell intelligens (AI) och maskininlärning (ML) har under de senaste åren fått allt större genomslag inom organisationsforskning och tillämpning – ett av dessa områden är yrkesbedömning. En nyligen publicerad forskningsartikel i Journal of Applied Psychology av et al. (2023) undersökte hur väl AI-baserade, indirekta mätningar av personlighet via en chatbot står sig mot traditionella självrapporteringsmetoder, såsom NEO-PI-R eller OPTO.
I studien extraherade chatboten text från användarnas fritextsvar under en 20–30 minuter lång onlinekonversation. Dessa data bearbetades sedan med maskininlärningsalgoritmer för att beräkna personlighetsresultat – kallade AI personality scores. Resultaten jämfördes med poäng från ett självrapporterat Big Five-baserat frågeformulär – benämnt självrapporterade Big5-poäng.
Att mäta personlighet genom AI-analys av digitala fotspår kan verka lockande, men innan man väljer metod är det viktigt att förstå de psykometriska nyanserna. Artikeln lyfter tre centrala utmaningar med AI-personlighetspoäng:
- Diskriminant validitet – AI-poängen visade god konvergent validitet (högt samband med självrapporterade poäng för samma egenskaper), men svagare diskriminant validitet. Detta innebär att AI-modellen hade svårare att tydligt särskilja mellan olika personlighetsfaktorer.
- Inkrementell validitet – AI-poängen gav endast ibland ett mervärde utöver självrapporterade mått. Denna inkonsekvens begränsar metodens förmåga att tillföra unika insikter.
- Kriterierelaterad validitet – Studien fann låg förmåga hos AI-poängen att förutsäga externa kriterier, exempelvis arbetsprestation. Detta minskar dess praktiska användbarhet jämfört med traditionella Big Five-mätningar.
Trots dessa begränsningar noterades även styrkor, såsom acceptabel tillförlitlighet, en jämförbar faktorstruktur med traditionella metoder och viss generaliserbarhet över olika urval. Problemen med diskriminant validitet, inkonsekvent inkrementell validitet och låg kriterierelaterad validitet kvarstår dock som betydande hinder för praktisk tillämpning.
Psykometriska studier av AI-personlighetspoäng
Tillförlitlighet
Tillförlitlighet är en grundpelare i psykometrin och avser hur stabila poängen är över tid och mellan mättillfällen. Vid jämförelse mellan AI-baserade och traditionella självrapporteringsmetoder finns metodologiska skillnader att beakta. Exempelvis är traditionella mått på intern konsistens, som Cronbachs α, inte direkt tillämpliga på AI-metoden eftersom den inte bygger på enskilda testitems.
Studien rapporterade blandade resultat:
- Facettnivå: Split-half reliabiliteten var överlag acceptabel, men något lägre än för självrapporterade Big5-poäng.
- Test–retest: AI-poängen hade liknande reliabilitet som split-half-måtten, men även här något lägre än traditionella metoder.
- Intern konsistens: När facettpoäng behandlades som “items” uppvisade AI-poängen något högre intern konsistens än självrapporterade Big Five-domänpoäng.
- Självrapport: Traditionella mått visade fortsatt god intern konsistens och stabilitet.
Validitet
Validitet handlar om att mäta det man avser att mäta. Studien undersökte faktoriell, konvergent, diskriminant och kriterierelaterad validitet.
Resultaten visade att:
- Modellpassningsindikatorerna låg generellt något under vedertagna riktlinjer, men ansågs adekvata givet personlighetsstrukturens komplexitet.
- AI-metoden i stort sett replikerade den faktorstruktur som erhölls med självrapport.
- Faktorbelastningar och mönster var likartade mellan metoderna.
- Konvergent validitet var mycket god, men diskriminant validitet var svagare – särskilt problematiskt i testprovet.
- Kriterierelaterad validitet var låg, men jämförbar med självrapport vid vissa analyser.
Författarna noterade förbättringar i AI-metodens förmåga att särskilja egenskaper jämfört med vissa tidigare maskininlärningslösningar, men slutsatsen var att AI ännu inte når upp till samma psykometriska nivå som etablerade självrapporteringsmetoder.
Samlade psykometriska slutsatser
Et al. (2023) konstaterar att AI-personlighetspoäng i deras studie:
- Hade övergripande acceptabel reliabilitet på både domän- och facettnivå.
- Producerade en faktorstruktur jämförbar med självrapport.
- Visade god konvergent validitet men relativt låg diskriminant validitet.
- Hade låg kriterierelaterad validitet.
- Uppvisade inkrementell validitet i vissa analyser.
Överlägsna resultat i jämförelse med vissa AI-studier
Trots att självrapporteringsmetoder presterade bättre än AI-chatboten, uppvisade denna studie starkare resultat än flera tidigare AI-baserade försök. Tre faktorer kan förklara detta:
- Större urval – vilket förbättrar modellens förmåga att identifiera subtila mönster.
- Interaktiv datainsamling – som kan ha lett till mer relevanta och högkvalitativa svar.
- Avancerad NLP-metod – användning av Universal Sentence Encoder (USE) gav mer kontextuell information än enklare räknebaserade metoder.
Trots dessa styrkor är metoden ännu inte tillräckligt robust för att överträffa traditionella självrapportbaserade mätningar.
Praktiska problem och etiska överväganden
För HR-professionella som överväger AI-chatbotar i personlighetsbedömning pekar studien på flera viktiga frågor:
- Konversationsagendan – Begränsat stöd för att olika frågeuppsättningar ger stabila resultat för samma individ. Transparens kring träningsdata rekommenderas.
- Motstånd mot manipulation – Det finns inget starkt empiriskt stöd för att AI-mått är mer manipulationssäkra än självrapport.
- Negativ påverkan – AI-modeller kan oavsiktligt koppla språkmönster till gruppidentiteter, vilket kräver algoritmisk justering.
- Kriterierelaterad validitet – Den blygsamma nivån motiverar vidare studier i olika organisationsmiljöer.
- Datamängdens robusthet – Miniminivå för chattinmatningar bör fastställas för att säkerställa psykometrisk integritet.
- Kombination med andra datakällor – Integrering av andra rapporterade mått kan öka prediktiv styrka.
- Etik – Frågor om transparens, datainsamling och återanvändning av intervjutext måste hanteras ansvarsfullt.
Slutsats
AI-chatbots kan i framtiden bli ett användbart verktyg i tidiga skeden av rekrytering, men innan storskalig implementering krävs noggrann prövning av metodens psykometriska robusthet och etiska implikationer. Tekniska framsteg bör alltid balanseras med principer om rättvisa, transparens och kvalitet i bedömningsmetoder.