HomeSOLUTIONSDet finns en överskattning av stora språkmodellers resonemangsförmåga

Det finns en överskattning av stora språkmodellers resonemangsförmåga

En ny studie från MIT:s Computer Science and Artificial Intelligence Laboratory (CSAIL) har belyst hur stora språkmodeller (LLM) excellerar i bekanta scenarier men kämpar i nya situationer, vilket ifrågasätter deras verkliga resonemangsförmågor jämfört med beroendet av memorisering. Denna insikt är avgörande för att förbättra dessa modellers anpassningsförmåga och utvidga deras tillämpningsområden.Studien jämförde ”standarduppgifter” de vanliga uppgifterna som en modell tränas och testas på, med ”kontrafaktiska scenarier”, hypotetiska situationer som avviker från standardförhållandena. Forskarna utvecklade tester utanför modellernas komfortzon genom att justera befintliga uppgifter snarare än att skapa helt nya. De använde en mängd olika datamängder och benchmarktester specifikt anpassade för olika aspekter av modellernas förmågor, såsom aritmetik, schack, kodutvärdering, svar på logiska frågor och mer.Resultaten visade att dessa modeller inte är lika robusta som många initialt tror. Deras höga prestanda begränsas till vanliga uppgiftsvarianter och lider av konsekvent och allvarlig prestandafall i de obekanta kontrafaktiska scenarierna, vilket indikerar en brist på generaliserbar additionsförmåga. Mönstret gällde även för andra uppgifter som musikalisk ackordgrepp, rumsligt resonemang och till och med schackproblem där pjäsarnas utgångspositioner var något ändrade. Medan mänskliga spelare förväntas kunna avgöra lagligheten av drag i ändrade scenarier (givet tillräckligt med tid), kämpade modellerna och kunde inte prestera bättre än slumpmässiga gissningar, vilket innebär att de har begränsad förmåga att generalisera till obekanta situationer.Dessa insikter är viktiga eftersom de kan informera om utformningen av framtida LLM med förbättrad robusthet. Trots de vunna insikterna finns det naturligtvis begränsningar. Studiens fokus på specifika uppgifter och inställningar fångade inte upp det fulla spektret av utmaningar modellerna potentiellt kan stöta på i verkliga applikationer, vilket signalerar behovet av mer mångsidiga testmiljöer. Framtida arbete kan innebära att utvidga området för uppgifter och kontrafaktiska villkor för att avslöja fler potentiella svagheter.

Latest articles

Newbury BS cuts resi, expat, landlord rates by up to 30bps  – Mortgage Strategy

Newbury Building Society has cut fixed-rate offers by up to 30 basis points...

Rate and Term Refinances Are Up a Whopping 300% from a Year Ago

What a difference a year makes.While the mortgage industry has been purchase loan-heavy for...

Goldman Sachs loses profit after hits from GreenSky, real estate

Second-quarter profit fell 58% to $1.22 billion, or $3.08 a share, due to steep...

Why Do AIs Lie?

Zeroth Principles can clarify many issues in the ML/AI domain. As discussed in a...

More like this

How to copy a table from PDF to Excel: 8 methods explained

Copying tables from PDFs to Excel can be a nightmare. Wonky formatting, lost data,...

CodeAct: Your LLM Agent Acts Better when Generating Code

Large Language Model (LLM) agents, capable of performing a broad range of actions, such...

#1 Transform your PDF to Text with Yatter AI

Introduction to PDF – text recognitionThe process of turning a PDF document’s contents into...