Колко близо са най-добрите сегашни AI модели до AGI?
Нов сложен тест показва, че дори най-усъвършенстваните платформи са далеч от начинът, по който се представят хората
&format=webp)
Arc Prize Foundation, организация с нестопанска цел, съоснована от известния изследовател на изкуствения интелект Франсоа Шоле, е създала нов, предизвикателен тест за измерване на общата интелигентност на водещите AI модели.
Досега новият тест, наречен ARC-AGI-2, е затруднил значително повечето водещи платформи.
„Разсъждаващите“ модели като o1-pro на OpenAI и R1 на DeepSeek постигат между 1% и 1,3% резултат на ARC-AGI-2, според класацията на Arc Prize. Мощните системи, които не са „разсъждаващи“, включително GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, постигат резултат от около 1%.
Тестовете ARC-AGI се състоят от задачи, подобни на пъзел, при които изкуственият интелект трябва да идентифицира визуални модели от колекция от различни по цвят квадрати и да генерира правилната мрежа с „отговор“. Задачите са разработени така, че да принудят системите да се адаптират към нови проблеми, които не са виждали досега.
Фондацията Arc Prize е накарала над 400 души да се явят на теста ARC-AGI-2, за да се установи човешкото представяне. Средните резултати на хората са 60% успеваемост в отговорите на задачите - много по-добре от тези на който и да е от моделите.
В публикация в X Шоле твърди, че ARC-AGI-2 е по-добър показател за действителната интелигентност на модела на изкуствен интелект от първата итерация на теста - ARC-AGI-1. Тестовете на фондация Arc Prize имат за цел да оценят дали дадена система за изкуствен интелект може ефективно да придобие нови умения извън данните, върху които е била обучена.
За разлика от ARC-AGI-1 новият тест не позволява на моделите на AI да разчитат на „груба сила“ - обширна изчислителна мощ - за намиране на решения. Това е бил основен недостатък на ARC-AGI-1.
За да отстрани недостатъците на първия тест, ARC-AGI-2 въвежда нов показател: ефективност. Той също така изисква от системите да интерпретират моделите в движение, вместо да разчитат на запомняне.
„Интелигентността не се определя единствено от способността за решаване на проблеми или постигане на високи резултати“, пише съоснователят на Arc Prize Foundation Грег Камрадт в публикация в блога си. „Ефективността, с която тези способности се придобиват и използват, е решаващ, определящ компонент. Основният въпрос, който се задава, е не само: „Може ли AI да придобие умението да реши дадена задача?“, но и: „С каква ефективност или на каква цена?“.
ARC-AGI-1 беше непобедим в продължение на приблизително пет години до декември 2024 г., когато OpenAI пусна своя модел за усъвършенствани разсъждения o3, който надмина всички други модели и достигна с човешкото представяне при оценяването. Но тези постиженията на o3 в ARC-AGI-1 са свързани с висока цена.
Версията на модела o3 на OpenAI - o3 (low) - която първа достигна нови висоти в ARC-AGI-1, като получи 75,7%, достига до едва 4% в ARC-AGI-2, използвайки изчислителна мощност от 200 долара за задача.
Появата на ARC-AGI-2 идва в момент, когато много представители на технологичната индустрия призовават за нови критерии за измерване на напредъка на AI. Съоснователят на Hugging Face, Томас Волф, наскоро коментира пред TechCrunch, че в индустрията липсват достатъчно тестове за измерване на ключовите черти на т.нар. изкуствен общ интелект (AGI), включително креативността.
Заедно с новия бенчмарк Arc Prize Foundation обявява нов конкурс Arc Prize 2025, в който се отправя предизвикателство към разработчиците да постигнат 85% точност на теста ARC-AGI-2, като същевременно изразходват едва 0,42 долара на задача.