TTT modeliai gali būti kita generatyvaus AI riba

Po daugelio metų dominavimo dirbtinio intelekto formai, žinomai kaip transformatorius, ieškoma naujų architektūrų.

Transformatoriai yra „OpenAI“ vaizdo įrašus generuojančio modelio „Sora“ pagrindas ir yra teksto generavimo modelių, tokių kaip „Anthropic's Claude“, „Google“ „Gemini“ ir GPT-4o, pagrindas. Tačiau jie pradeda susidurti su techninėmis kliūtimis, ypač su skaičiavimu susijusiomis kliūtimis.

Transformatoriai nėra ypač veiksmingi apdorojant ir analizuojant didžiulį duomenų kiekį, bent jau veikiant jau paruoštoje aparatinėje įrangoje. Tai lemia staigų ir galbūt netvarų energijos paklausos padidėjimą, nes įmonės kuria ir plečia infrastruktūrą, kad atitiktų transformatorių poreikius.

Šį mėnesį pasiūlyta daug žadanti architektūra yra bandymo laiko mokymas (TTT), kurį per pusantrų metų sukūrė Stanfordo, UC San Diego, UC Berkeley ir Meta mokslininkai. Tyrėjų komanda teigia, kad TTT modeliai gali ne tik apdoroti daug daugiau duomenų nei transformatoriai, bet ir tai padaryti nenaudodami beveik tiek pat skaičiavimo galios.

Turinys

Paslėpta būsena transformatoriuose

Pagrindinis transformatorių komponentas yra „paslėpta būsena“, kuri iš esmės yra ilgas duomenų sąrašas. Kai transformatorius ką nors apdoroja, jis prideda įrašų į paslėptą būseną, kad „prisimintų“, ką ką tik apdorojo. Pavyzdžiui, jei modelis dirba per knygą, paslėptos būsenos vertės bus tokie, kaip žodžių (arba žodžių dalių) atvaizdavimas.

„Jei manote, kad transformatorius yra protingas subjektas, tada paieškos lentelė – paslėpta jo būsena – yra transformatoriaus smegenys“, – „TechCrunch“ sakė Yu Sun, Stanfordo universiteto doktorantė ir TTT tyrimų bendradarbė. „Šios specializuotos smegenys įgalina gerai žinomas transformatorių galimybes, tokias kaip mokymasis kontekste.

Paslėpta būsena yra dalis to, kas daro transformatorius tokius galingus. Tačiau tai juos taip pat kliudo. Kad „pasakytų“ nors vieną žodį apie knygą, kurią ką tik perskaitė transformatorius, modelis turėtų nuskaityti visą paieškos lentelę – tokia užduotis reikalauja tiek daug skaičiavimų, kaip ir perskaityti visą knygą.

Taigi Sun ir komanda sumanė paslėptą būseną pakeisti mašininio mokymosi modeliu – kaip įdėtomis AI lėlėmis, jei norite, modeliu modelyje.

Tai šiek tiek techninė, bet esmė ta, kad TTT modelio vidinis mašininio mokymosi modelis, skirtingai nei transformatoriaus paieškos lentelė, neauga ir neauga, nes apdoroja papildomus duomenis. Vietoj to, apdorojami duomenys koduojami į reprezentatyvius kintamuosius, vadinamus svoriais, todėl TTT modeliai yra labai našūs. Nesvarbu, kiek duomenų apdoroja TTT modelis, jo vidinio modelio dydis nepasikeis.

„Sun“ mano, kad būsimi TTT modeliai galėtų efektyviai apdoroti milijardus duomenų – nuo žodžių iki vaizdų, garso įrašų ir vaizdo įrašų. Tai gerokai viršija šiuolaikinių modelių galimybes.

„Mūsų sistema gali pasakyti X žodžius apie knygą be skaičiavimo sudėtingumo, kai knygą reikia perskaityti X kartus“, – sakė Sun. „Dideli vaizdo įrašų modeliai, pagrįsti transformatoriais, pvz., „Sora“, gali apdoroti tik 10 sekundžių vaizdo įrašo, nes juose yra tik paieškos lentelės „smegenys“. Mūsų galutinis tikslas yra sukurti sistemą, kuri galėtų apdoroti ilgą vaizdo įrašą, primenantį vaizdinę žmogaus gyvenimo patirtį.

Skepticizmas dėl TTT modelių

Taigi ar TTT modeliai galiausiai pakeis transformatorius? Jie galėtų. Tačiau dar per anksti tvirtai pasakyti.

TTT modeliai nėra transformatorių pakaitalas. Tyrėjai sukūrė tik du nedidelius tyrimo modelius, todėl TTT kaip metodą šiuo metu sunku palyginti su kai kuriais didesniais transformatorių diegimais.

„Manau, kad tai visiškai įdomi naujovė, ir jei duomenys patvirtina teiginius, kad tai padidina efektyvumą, tai yra puiki žinia, bet negalėčiau pasakyti, ar ji geresnė už esamas architektūras, ar ne“, – sakė vyresnysis Mike'as Cookas. dėstytojas Londono King's College informatikos katedroje, nedalyvavęs TTT tyrime. „Mano senas profesorius, kai buvau bakalauras, juokaudavo: kaip sprendžiate bet kokią informatikos problemą? Pridėkite kitą abstrakcijos sluoksnį. Neuroninio tinklo įtraukimas į neuroninį tinklą man tikrai tai primena.

Nepaisant to, spartėjantys transformatorių alternatyvų tyrimų tempai rodo, kad vis labiau pripažįstamas proveržio poreikis.

Šią savaitę dirbtinio intelekto startuolis „Mistral“ išleido modelį Codestral Mamba, paremtą kita transformatoriaus alternatyva, vadinama būsenos erdvės modeliais (SSM). Atrodo, kad SSM, kaip ir TTT modeliai, skaičiavimo požiūriu yra efektyvesni nei transformatoriai ir gali padidinti duomenų kiekį.

AI21 Labs taip pat tiria SSM. Taip pat ir Cartesia, kuri buvo kai kurių pirmųjų SSM ir Codestral Mamba bendravardių Mamba ir Mamba-2 pradininkė.

Jei šios pastangos pasisektų, generatyvusis dirbtinis intelektas gali tapti dar prieinamesnis ir labiau paplitęs nei dabar – tiek geriau, tiek blogiau.

Source link