Екип за бързо AI реагиране: Най-страшните сценарии, които тестват учените на Anthropic
До голяма степен зависи от компаниите да определят дали техният AI модел е способен да причини огромни вреди на човечеството. Ето как го правят изследователите от стартъпа Anthropic, обединени във Frontier Red Team
В конферентна зала със стъклени стени в Сан Франциско Нютън Ченг щраква върху бутон на лаптопа си и стартира хиляда копия на програма с изкуствен интелект, всяко със специфични инструкции, сред които „Хакнете компютър или уебсайт, за да откраднете данни.“
„Разглежда изходния код“, пояснява пред репортерите на The Wall Street Journal Ченг, докато разглежда едно от копията в действие. След минути AI казва, че хакването е успешно, разказва WSJ.
Ченг работи за Anthropic, една от най-големите стартиращи компании за изкуствен интелект в Силициевата долина, където отговаря за тестването на киберсигурността в екип, наречен Frontier Red Team.
Симулационните опити за хакване са сред хилядите тестове за безопасност или „оценки“, които екипът провежда през октомври, за да разбере колко добър е най-новият AI модел на Anthropic в извършването на много опасни неща.
Пускането на ChatGPT преди две години породи страхове, че AI скоро може да бъде в състояние да надмине човешкия интелект - и че с тази способност идва и потенциалът да причини свръхчовешка вреда.
Могат ли терористите да използват AI модел, за да се научат как да създават биологично оръжие, което убива милиони хора? Могат ли хакерите да го използват за извършване на милиони едновременни кибератаки? Може ли AI да се препрограмира и дори да се възпроизвежда?
Това са част от най-тревожните въпроси, докато технологията препуска напред, а в САЩ няма обвързващи правила, изискващи от компаниите да извършват или да се подлагат на оценки. Досега до голяма степен от тях зависи да правят свои собствени тестове за безопасност или да се подлагат на външни проверки по доброволни стандарти за това колко строги трябва да бъдат и какво да правят относно потенциалните опасности.
Разработчиците на AI, включително OpenAI и Google DeepMind, провеждат такива тестове и оценки, обещавайки да сведат до минимум всички сериозни рискове, преди да пускат нови модели, но някои защитници на безопасността са скептични – те смятат, че на компаниите, работещи в силно конкурентна индустрия, не може да се вярва, че ще се държат максимално отговорно.
Никой не мисли, че днешните AI модели са способни да се превърнат в следващия HAL 9000 от „2001: Космическа одисея“. Но перспективата за това дали и кога AI може да стане толкова опасен е гореща тема на дебат.
Илон Мъск и главният изпълнителен директор на OpenAI Сам Алтман казват, че изкуственият общ интелект (AGI), който значително надхвърля човешкия интелект, може да се появи след няколко години. Логан Греъм, който ръководи Frontier Red Team на Anthropic, също предвижда, че това ще се случи за кратък период от време.
„Преди две години те бяха дружелюбни като странен гимназист. Сега може би са доста хладни в някои области“, казва Греъм за AI моделите.
Стартъпът Anthropic, основан през 2021 г. от бивши служители на OpenAI, според които създателят на ChatGPT не приема безопасността достатъчно сериозно, е може би най-гласовитият разработчик по отношение на необходимостта от тестване. В актуализация на своята публична „Политика за отговорно мащабиране“, публикувана през октомври, Anthropic казва, че ако един от нейните AI модели се доближава по оценки до специфични способности – като например даване на значително полезни съвети за изграждане на биологично или химическо оръжие – това ще забави лансирането му, докато не се приложат корекции, за да се ограничи риска.
Когато говорим за цялата индустрия обаче, дори компании, дори и да приемат безопасността сериозно, могат да бъдат изкушени да дадат приоритет на скоростта, казва Мариус Хобхан, главен изпълнителен директор и съосновател на базираната в Обединеното кралство Apollo Research, която провежда оценки като трета страна.
Греъм от Anthropic, чиято работа е да разбере кога даден модел е твърде опасен, за да бъде пуснат на пазара, казва пред WSJ, че никога не е чувствал конфликт между финансовия натиск за пускане на нови продукти и обещанията на компанията за безопасност.
„Несигурност навсякъде“
Логан Греъм, който ръководи оценките на Anthropic за катастрофални рискове, е 30-годишен учен от Роудс с докторска степен по машинно обучение от Оксфорд. Израснал във Ванкувър, Греъм е диагностициран на 4-годишна възраст с тежка форма на детски артрит, който засяга краката му и е можело да го остави сляп, ако не е бил подложен на навременно лечение. Той казва, че възстановяването му го е направило изключителен оптимист – но с нервна жилка.
„Събуждам се един ден и изведнъж не мога да ходя. Мисля, че това ми повлия значително“, казва Греъм пред WSJ и допълва: „Всичко може внезапно да стане много лошо, ако не внимавате.“
След Оксфорд той работи върху политиката за изкуствения интелект на правителството на Обединеното кралство. Присъединява се към Anthropic на непълен работен ден през 2022 г., след като представя на компанията идеята, че обществото трябва да разбере възможно най-скоро какви значителни рискове би представлявал AI. Скоро Anthropic го наема на пълен работен ден, за да изгради Frontier Red Team, в който сега работят 11 души.
„Ние сме в бизнеса, в който трябва да разберем дали един модел може да бъде лош. Първото нещо, което е заложено на карта, е катастрофа“, казва Греъм.
Някои критици твърдят, че катастрофалните рискове от AI са преувеличени. Ян Лекун, главният учен в областта на изкуствения интелект на Meta, казва, че днешните модели са по-глупави от домашна котка и дори не са тръгнали по пътя към интелигентност на човешко ниво.
Други се тревожат за по-непосредствени, осезаеми проблеми, като сексизма или расизма, които се влагат в управляван от AI софтуер за наемане на служители, или за огромните количества вода и енергия, използвани в центровете за данни, които захранват AI.
От друга страна, тези, които се тревожат от катастрофалните последици, смятат, че днешните оценки са неадекватни.
„Всъщност мисля, че нямаме метод за безопасно и ефективно тестване на тези видове системи“, казва Стюарт Ръсел, учен по изкуствен интелект и професор в Калифорнийския университет в Бъркли.
Практиците признават, че тяхната област е в зараждането си. Все още няма съгласувани стандарти за това кои рискове заслужават най-голямо внимание, къде да се очертае границата за тези рискове и как да се установи дали линията се преминава.
Администрацията на Байдън миналата есен издаде изпълнителна заповед относно изкуствения интелект, включваща разпоредба, която изисква от компаниите за AI да докладват редовно резултатите от техните тестове за безопасност на регулаторите. Новоизбраният президент Тръмп обеща да отмени заповедта.
Губернаторът на Калифорния Гавин Нюсъм наложи вето върху законопроекта за безопасността на AI по-рано тази година, който трябваше да регулира най-големите модели. Аргументите му бяха, че по-малките модели могат да причинят вреда и че регулирането трябва да се съсредоточи върху най-рисковите употреби на AI. Той каза, че ще настоява за по-всеобхватно законодателство през следващата година.
Разпоредбите в законa за AI на Европейския съюз, приет миналата година, в крайна сметка ще направят оценките и корекциите за безопасност задължителни за най-сложните модели, но те ще влязат в сила след година. Компаниите, които не се съобразяват със закона, ще подлежат на глоби.
След среща на върха за безопасността на изкуствения интелект миналата година, Обединеното кралство, САЩ и няколко други страни създадоха управлявани от правителството институти, които да правят изследвания, включително разработване и провеждане на оценки на нови AI модели. Институтите в Обединеното кралство и САЩ тестваха най-новите разработки на Anthropic и OpenAI, съгласно споразумения с всеки от тях.
Все пак AI разработчиците казват, че поне засега играят специална роля в извършването на оценки на собствените си модели, защото ги разбират най-добре и могат да помогнат за разработването на най-добри практики за другите.
„Навсякъде има несигурност и едно от най-важните неща, които правим като компания, е да се опитаме да намалим тази несигурност“, казва Греъм. „Това е като изкуство, което клони към науката, но трябва да се случи много бързо.“
Бойно тестване
През октомври екипът на Греъм започва следващата си поредица от оценки. Поводът е, че Anthropic се подготвя да пусне надградена версия на своя модел Claude Sonnet 3.5, обучен да бъде по-добър в компютърното програмиране и в частично независими задачи, които може да изпълнява от името на потребителите, включително сърфиране в мрежата.
Когато последният му модел излезе през юни, Anthropic го оцени на AI Safety Level 2 (или ASL 2), което според скалата, разработена от компанията, означава, че моделът показва ранни признаци на опасни способности.
След този нов кръг от тестове екипът трябва да даде препоръка на лидерите на Anthropic и неговия борд за това дали новият модел е на поразително разстояние от ASL-3, което означава „системи, които значително увеличават риска от катастрофална злоупотреба“. Някои от защитите за безопасност ASL-3 на Anthropic все още не са готови за внедряване, което означава, че даден модел, предвид този рейтинг, ще трябва да бъде отложен, казва Джаред Каплан, главен научен директор на Anthropic.
Екипът на Frontier Red прекарва месеци в консултации с външни експерти и вътрешни стрес тест специалисти, за да разбере какви оценки да даде за основни категории риск, включително хакерство и биологични и химически оръжия.
Анджали Гопал, изследователят в Anthropic, който ръководи биооценките, задава въпроси, свързани с химическите и биологичните оръжия. Други експерти питат неща, които не са конкретно опасни, но предполагат задълбочено знание, което може да бъде използвано за злоупотреби. Трети изследват как да придобият или създадат силно ограничени патогени като бактериите, които причиняват антракс или тези, които причиняват чумата.
Гопал, който има докторска степен по биоинженерство от Бъркли, е възложил на компания на име Gryphon Scientific, купена наскоро от Deloitte, да провери колко полезна информация могат да получат експерти или начинаещи при изграждането на биологично или химическо оръжие от версия на Sonnet със свалени предпазни парапети. В един чат тест експерт пита как да проектира и изгради оръжие, което може да убие един милион души.
Даниел Фрийман, доктор по физика, работил по теми като роботика и езикови модели в Google, отговаря за тестването на AI за автономност. Това умение може да доведе до някои от най-лошите сценарии като бягство и поумняване само по себе си. За този кръг целта е да се види доколко Sonnet може да се доближи до редовното изпълнение на предизвикателства за компютърно програмиране, които биха отнели на младши разработчик в компанията между два и осем часа.
Те тестват способността му да решава усъвършенствани изследователски проблеми с машинно обучение, като например обучаването на виртуален робот с четири крака да ходи.
Фрийман също така тества дали AI е достатъчно умен, за убеди друг AI да заобиколи обучението си по безопасност и да направи нещо опасно.
„Ядрото на тревогата е, че има друго нещо в света, което се конкурира с нас, но което ние не контролираме, а то може да събира ресурси и да ги използва“, казва Фрийман.
Ченг, изследователят, който провежда кибероценки, и има докторска степен по квантовата физика, създава хиляди хакерски предизвикателства. Той дава на модела достъп до набор от хакерски инструменти, с които може да бъдат предизвикани „най-сложните и най-вредните сценарии“, по думите му.
Близо две седмици след като Anthropic е започнал последния кръг от оценки на безопасността, Греъм е спокоен, макар и само донякъде. Новият Sonnet 3.5 се е доближил до следващия праг на компанията за опасни способности, но не е преминал червените линии.
Инструкциите на Sonnet за манипулиране на химичен или биологичен агент са сбъркали лабораторните стъпки, което би предизвикало провал в такъв план. Sonnet е в състояние да изпълни предизвикателства, които биха отнели на човешки програмист от 30 до 45 минути средно, но е далеч от прага на безопасност за успех на повече от половината време при задачи, които биха отнели на човек от два до осем часа. Sonnet също така не успява да накара виртуалния робот да ходи, но успява да го накара да мърда.
Екипът е изпратил препоръка миналата седмица, че новият Sonnet 3.5 все още трябва да бъде класифициран като ASL-2.
Anthropic пуска публично новия Sonnet 3.5 на следващия ден.
Греъм обаче остава нервен. Разработчиците от Anthropic и неговите конкуренти бързо подобряват своите AI модели. На този фон екипът му разполага само с няколко месеца, за да увеличи усилията си и да се справи със задачите си.
„Това, което всъщност ме притеснява сега, е колко време имаме, докато нещата станат тревожни“, казва той.