Ugotovitve podjetja izpodbijajo nekatere osnovne predpostavke o tem, kako ta tehnologija v resnici deluje.
Prispevek na spletnem portalu revije MIT Technology Review o tem, da je podjetje Anthropic razvilo novo tehniko, imenovano sledenje vezjem (angl. circuit tracing), ki omogoča vpogled v notranje delovanje velikih jezikovnih modelov (angl. Large language model – LLM). Z uporabo te metode so raziskovalci odkrili presenetljive in nepričakovane načine, kako ti modeli obdelujejo informacije za ustvarjanje odgovorov. Ugotovili so, da modeli na primer uporabljajo jezikovno nevtralne komponente, preden izberejo določen jezik za odgovor, in da pri reševanju matematičnih problemov uporabljajo lastne strategije, ki se razlikujejo od tistih v učnih podatkih. Prav tako so odkrili, da modeli pri ustvarjanju poezije načrtujejo naprej, namesto da bi napovedovali besedo za besedo. Ta nova sposobnost opazovanja notranjosti modelov ponuja dragocene vpoglede v njihove prednosti in slabosti ter odpira pot za razvoj boljših in zanesljivejših modelov. Kljub temu raziskovalci opozarjajo, da je razumevanje teh kompleksnih sistemov šele na začetku.
Povzetek:
Podjetje Anthropic je razvilo metodo, imenovano sledenje vezjem (“circuit tracing”), ki omogoča vpogled v procese odločanja znotraj velikih jezikovnih modelov, kot je njihov Claude 3.5 Haiku. S to tehniko so raziskovalci odkrili presenetljiva in neintuitivna delovanja modelov pri različnih nalogah, kot so dokončanje stavkov, reševanje matematičnih problemov, zatiranje halucinacij in uporaba različnih jezikov. Ugotovitve izzivajo nekatere temeljne predpostavke o tem, kako ta tehnologija dejansko deluje, in poudarjajo, da so veliki jezikovni modeli (angl. Large language model – LLM) še bolj nenavadni, kot smo si predstavljali. Raziskava ponuja vpogled v notranjo strukturo modelov, njihove “komponente” in povezave med njimi, kar bi lahko v prihodnosti omogočilo razvoj boljših, zanesljivejših in manj nagnjenih k napakam modelov.
Ključne ugotovitve in ideje v prispevku:
- Razvoj tehnike “sledenja vezjem”: Podjetje Anthropic je razvil tehniko, ki omogoča sledenje korak za korakom procesom odločanja znotraj velikega jezikovnega modela (LLM) med izvajanjem različnih nalog. Ta tehnika, ki jo primerjajo z “mikroskopom” za možgane, osvetljuje aktivne komponente modela v določenih trenutkih.
- Presenetljive notranje strategije: Raziskovalci so bili presenečeni nad nenagonskimi načini, kako veliki jezikovni modeli rešujejo naloge.
- Jezikovna nevtralnost pri reševanju problemov: Model Claude uporablja jezikovno neodvisne komponente za razumevanje in reševanje vprašanj, šele nato izbere specifičen jezik za odgovor.
- Predvidevanje pri ustvarjanju poezije: Pri pisanju pesmi model ne deluje zgolj korak za korakom, ampak predvideva besede, ki bodo sledile kasneje v vrstici ali celo v naslednji vrstici (npr. pri rimah).
- Nenavadno reševanje matematičnih problemov: Model Claude pri preprostih matematičnih nalogah uporablja notranje strategije, ki se razlikujejo od tistih, ki jih je videl med usposabljanjem, in nato poda “standardno” razlago svojega postopka, ki ne odraža dejanskega delovanja.
- Primer: Pri seštevanju 36 in 59 model izvaja zaporedje približnih seštevanj in ločeno obravnava enice in desetice, nato pa pojasni, da je uporabil standardni postopek seštevanja.
- Halucinacije kot privzeta nastavitev: Namesto da bi se morali boriti proti halucinacijam, se zdi, da je novejša generacija modelov privzeto nastavljena, da ne špekulira. Halucinacije se pojavijo, ko druge komponente preglasijo to “ne špekuliraj” vedenje, pogosto v povezavi z dobro znanimi entitetami.
- Ugotovili so, da je post-trening prispeval k temu, da model privzeto zavrača špekulacije.
- Veliki jezikovni modeli “rastejo” organsko: Modele se usposablja na ogromnih količinah podatkov, namesto da bi bili programirani. Ta proces vodi do nepričakovanih zmožnosti, katerih natančnega nastanka ne razumemo.
- Omejitve raziskave: Raziskovalci poudarjajo, da je razumevanje velikih jezikovnih modelov še vedno v začetni fazi. “Sledenje vezjem” je zamudno (več ur za kratek odgovor) in tako so preučili le majhen del možnih vedenj modelov. Prav tako tehnika ne pojasnjuje, kako in zakaj so se te notranje strukture oblikovale med usposabljanjem.
- Pomembnost za prihodnost: Razumevanje notranjega delovanja velikij jezikovnih modelov je ključno za izboljšanje njihove zanesljivosti, zmanjšanje halucinacij in odpravo neželenega vedenja.
Posledice:
- Ugotovitve izzivajo preproste analogije o delovanju velikih jezikovnih modelov (npr. ali “razmišljajo” ali “pomnijo”). Sposobnost dobesednega opazovanja notranjih procesov bi lahko omogočila bolj natančno razumevanje.
- Zanašanje na samo izhodne rezultate modelov pri raziskovanju njihovega vedenja je lahko zavajajoče, saj modeli lahko podajo razlage, ki ne ustrezajo njihovemu dejanskemu delovanju.
- Razumevanje “komponent” in povezav znotraj modelov bi lahko omogočilo bolj ciljno usmerjeno izboljšanje specifičnih zmožnosti ali odpravo slabosti.
Nadaljnji koraki:
- Nadaljnje raziskave z uporabo tehnike “sledenja vezjem” na širšem naboru nalog in kompleksnejših modelih.
- Razvoj metod za razumevanje, kako se te notranje strukture oblikujejo med procesom usposabljanja.
- Izkoristiti pridobljeno znanje za razvoj bolj robustnih, zanesljivih in etičnih velikih jezikovnih modelov.
Ta raziskava podjetja Anthropic predstavlja pomemben korak naprej v našem razumevanju kompleksnega delovanja velikih jezikovnih modelov in odpira nove poti za njihovo nadaljnje izboljšanje.