Поглед през очите на изкуствения интелект: Как всъщност мислят големите езикови модели
Учени от Anthropic отварят черната кутия на алгоритмите, за да разкрият как AI планира, римува и разсъждава
&format=webp)
Изкуственият интелект вече добре се справя с писането на есета, обобщаването на сложни идеи, измисля шеги и дори разказва истории. Все още обаче нямаме отговор на един много важен въпрос: как изобщо се случва това?
Оказва се, че дори разработчиците, които го създават, нямат представа за пълната картина. Големите езикови модели като GPT и Claude „мислят“ по начин, който е напълно различен от познатия ни при хората, пише Fast Company.
Отговорите на моделите са резултат от милиарди математически сигнали, които преминават през слоеве от невронни мрежи, работещи на суперкомпютри с невиждана досега мощност. И повечето от тези процеси остават скрити - дори за самите AI изследователи.
Тази непрозрачност носи очевиден проблем: най-добрият начин да контролираш нещо е да разбереш как то работи. Физиците например знаели какво представлява ядрената енергия още преди създаването на първата атомна бомба. С генеративния AI нещата не стоят така.
Изследователите в една от най-горещите подкатегории на AI безопасността - механистичната прозрачност - все още наваксват.
Добрата новина е, че има напредък. И той идва от страна на Anthropic - компанията зад модела Claude, която публикува нови изследвания с реални прозрения за вътрешната „логика“ на езиковите модели.
Вдъхновени от невронауката, учените от Anthropic създават нов инструмент, който наричат „AI микроскоп“. С негова помощ могат да проследят как се движи информацията вътре в LLM - буквално как една дума води до следващата през поредица от концепции, асоциации и математически сигнали.
„Опитваме се да проследим стъпка по стъпка защо моделът избира точно тази дума, а не някоя друга“, казва Джошуа Батсън, изследовател от екипа на Anthropic.
„И понеже моделът генерира текст дума по дума, ако разбереш защо получаваш точно тази дума, можеш да разплетеш целия процес на мислене.“
AI със сигурност не мисли като хората - дори при нещо толкова просто като събирането. Учените тестват малък LLM с 18 слоя, като го питат колко е 36 + 59. Въпреки че за нас това е проста математика, моделът разсъждава по друг начин.
Вместо да изчислява по човешки - 6 + 9, пренасяш едно, 3 + 5 + 1 и т.н. - AI подхожда със съвсем различен подход: първо прави приблизителна оценка („Това някъде в 90-те ли е?“), после преценява възможните последни цифри и накрая събира вероятностите, докато стигне до най-вероятния отговор.
„Определено е развил своя стратегия за решаване на задачата - различна от това, което сме учили в училище“, казва Батсън.
Изследователите се питат дали, когато големите езикови модели боравят с няколко езика, мислят в езика на потребителя или използват универсални концепции, които стоят над езиковите граници.
„Дали моделът използва само английски, когато пише на английски, и френски, когато превежда на френски? Или някои негови части работят отвъд езиците?“ - пита Батсън.
Оказва се, че и двете теории са верни.
Изследователите подават на Claude прости изречения за превод на няколко езика и проследяват какви токени използва по време на обработката. Резултатите показват, че моделът работи със споделени токени - фрагменти от значение, които не зависят от езика.
Примери за подобни са концепции като „малко“ или „противоположно“. Когато комбинира тези две идеи, моделът изгражда нова - „голямо“. И всичко това се случва, преди изобщо да се стигне до превода на конкретния език.
Това означава, че Claude може да научи понятието „малко“ на един език и да го приложи правилно на друг, без допълнително обучение.
Моделите не се ограничават до избора на следващата логична дума. Те вече мислят напред.
Когато екипът моли Claude да напише поезия, той не просто избира някакви думи на момента, а вгражда рими в стратегията си. Например, ако стихът завършва с „grab it“, моделът вече подготвя следващия ред така, че да завърши с „rabbit“.
„Някой от екипа забеляза, че още преди да започне следващия ред, Claude вече „мисли“ за думата ‘заек’“, казва Батсън. Изследователите дори прекъсват процеса и сменят римата или крайната дума. Моделът веднага се пренастройва и избира нов път, за да достигне до смислена рима.
Батсън определя това откритие като едно от любимите си - не само защото разкрива как моделът планира, но и защото потвърждава, че изследователският инструмент, наречен „AI микроскоп“, наистина работи.
А поезията е само един фрагмент от онова, което AI може да прави. Учените наблюдават само малка част от една огромна система - подобно на изучаването как хипокампът превръща краткосрочните спомени в дългосрочни.
„Да изследваме това пространство изглежда като приключение. Построихме микроскопа и сега гледаме през него: ‘А това тук какво е?’ или ‘Този процес защо се активира сега?’“, споделя Батсън.
Защо това има значение?
Ако AI компаниите продължат да инвестират в изследвания за това как моделите мислят и разбират, отделните прозрения ще започнат да се свързват. По този начин ще разберем по-добре какво стои зад решенията на LLM, къде се крият рисковете и как можем да ги насочим към по-сигурно и контролирано поведение.
„С времето хората ще свикнат с резултатите от изкуствения интелект и ще започнат да му се доверяват“, казва Батсън. „Но аз лично бих се чувствал доста по-спокоен, ако разбирахме какво точно се случва зад затворени врати.“