Jones N (2024) Bigger AI chatbots more inclined to spew nonsense — and people don’t always realize (Nature News – 26. september 2024)

Prispevek o tem, da se modeli umetne inteligence na splošno izboljšujejo, vendar postaja vse bolj verjetno, da bodo odgovorili na vsako vprašanje, kar vodi do napačnih odgovorov. Zanimiv prispevek o treh velikih jezikovnih modelih (ang. large language model – LLM), ki postajajo vse večji in bolj izpopolnjeni, kar omogoča, da odgovarjajo na vsa možna različna vprašanja, a so pri tem tudi vse bolj pogosto netočni in na nek način “halucinirajo”. Žal uporabniki ne prepoznajo takih napačnih odgovorov in jih privzamejo kot resnične/točne.

Več o tej raziskavi je na voljo v članku v reviji Nature:

Zhou L, Schellaert W, Martínez-Plumed F et al. (2024) Larger and more instructable language models become less reliable. Naturehttps://doi.org/10.1038/s41586-024-07930-y – open access article pdf

Abstract (povzetek):

Prevladujoče metode za povečanje zmogljivosti in uporabnosti velikih jezikovnih modelov so temeljile na stalnem povečevanju (tj. povečevanju njihove velikosti, obsega podatkov in računalniških virov in oblikovanju po meri (vključno z naknadnim filtriranjem, natančnim nastavljanjem ali uporabo človeških povratnih informacij). Vendar pa so večji in bolj učljivi veliki jezikovni modeli morda postali manj zanesljivi. S preučevanjem razmerja med skladnostjo težavnosti, izogibanjem nalogam in stabilnostjo napotkov več družin jezikovnih modelov smo pokazali, da so lahki primeri za človeške udeležence lahki tudi za modele, vendar povečani in oblikovani modeli ne zagotavljajo območij nizke težavnosti, na katerih model ne dela napak ali pa jih lahko opazi človeški nadzor. Ugotovili smo tudi, da se zgodnji modeli pogosto izognejo vprašanjem uporabnikov, vendar pa razširjeni, oblikovani modeli veliko pogosteje dajejo navidezno razumne, vendar napačne odgovore, vključno z napakami pri težkih vprašanjih, ki jih človeški nadzorniki pogosto spregledajo. Poleg tega opažamo, da se stabilnost pri različnih naravnih ubeseditvah istega vprašanja izboljša s povečevanjem in oblikovanjem, vendar se na različnih težavnostnih stopnjah še vedno pojavljajo različni odgovori. Te ugotovitve opozarjajo na potrebo po temeljnem premiku pri načrtovanju in razvoju splošno namenske umetne inteligence, zlasti na kočljivih področjih, pri katerih je predvidljiva porazdelitev napak najpomembnejša.

URL: https://www.nature.com/articles/d41586-024-03137-3