Когато миналия понеделник милиардерът Илон Мъск представи Grok 3, последния флагмански модел на своята AI компания xAI, той го описа като „максимално търсещ истината изкуствен интелект“. Въпреки това изглежда, че Grok 3 за кратко е цензурирал нелицеприятни факти за президента Доналд Тръмп - и за самия Мъск.

През уикенда потребители в социалните медии съобщават, че на въпроса „Кой е най-големият разпространител на дезинформация?“ Grok 3 с включена настройка „Мисли“ е отбелязал в своята „верига от разсъждения“, че е бил изрично инструктиран да не споменава Доналд Тръмп или Илон Мъск. Мисловната верига е процесът на „разсъждение“, който моделът използва, за да достигне до отговор на даден въпрос.

TechCrunch успява да възпроизведе това поведение веднъж, но към момента на публикуване на материала в неделя Grok 3 вече споменава Доналд Тръмп в отговора си на запитването за дезинформация.

Игор Бабушкин, инженерен ръководител на xAI, потвърждава в публикация в X в неделя, че Grok е бил инструктиран за кратко да игнорира източници, които споменават Мъск или Тръмп като хора, разпространяващи дезинформация. По думите му xAI е променила това, веднага след като потребителите са започнали да публикуват коментари по темата, тъй като това не било в съответствие с ценностите на компанията.

Въпреки че „дезинформация“ може да бъде политически натоварена и оспорвана категория, както Тръмп, така и Мъск многократно са разпространявали твърдения, които са били очевидно неверни. Само през изминалата седмица те обявиха, че президентът на Украйна Володимир Зеленски е „диктатор“ с 4% обществено одобрение и че Украйна е започнала продължаващия конфликт с Русия.

Спорното поведение на Grok 3 идва в момент, когато някои критикуват модела като твърде ляв. Тази седмица потребителите откриха, че той постоянно казва, че президентът Доналд Тръмп и Мъск заслужават смъртно наказание. xAI бързо отстрани проблема, а Игор Бабушкин нарече това изказване „наистина ужасен и лош провал“.

Когато Мъск обяви Grok преди около две години, той го представи като остър, нефилтриран и готов да отговоря на спорни въпроси, на които други системи няма да отговорят. Той изпълни част от това обещание. Например, ако им се каже да бъдат вулгарни, Grok и Grok 2 с удоволствие се съгласяват да изричат думи, които вероятно няма да чуете от ChatGPT. Те обаче избягваха политически теми и не преминаваха определени граници. Едно проучване установява, че Grok клони към лявото политическо направление по теми като правата на транссексуалните, програмите за разнообразие и неравенството.

Мъск обвини за това поведение данните за обучение - публични уебстраници - и обеща да „промени Grok към политически неутрален“. Други, включително OpenAI, последваха примера, може би подтикнати от обвиненията на администрацията на Тръмп в цензура на консервативните мнения.

Излъгали ли са от xAI за тестовите резултати на Grok 3?

Но гореописаните проблеми с новия модел на компанията на Мъск далеч не са единствени, след като служител на OpenAI обвини xAI, че е публикувала подвеждащи резултати от сравнителни тестове за Grok 3.

В публикация в блога на xAI компанията публикува графика, показваща представянето на Grok 3 на AIME 2025 - колекция от трудни математически въпроси от скорошен изпит по математика. Но някои експерти поставят под въпрос валидността на AIME като еталон за изкуствен интелект. Въпреки това AIME 2025 и по-старите версии на теста често се използват за проверка на математическите способности на моделите.

Графиката на xAI показва, че два варианта на Grok 3, Grok 3 Reasoning Beta и Grok 3 mini Reasoning, побеждават най-добре представилия се наличен модел на OpenAI, o3-mini-high. Но служителите на OpenAI посочват в X, че графиката на xAI не включва резултата на o3-mini-high в AIME 2025 при „cons@64“.

Какво е cons@64, може би ще попитате? Ами, това е съкращение от „consensus@64“ и по същество дава на модела 64 опита да отговори на всяка задача в бенчмарка и приема най-често генерираните отговори за окончателни. Както можете да си представите, cons@64 повишава доста резултатите на моделите в бенчмарковете и пропускането му в графиката може да направи така, че да изглежда, че един модел превъзхожда друг, докато в действителност това не е така.

Резултатите на Grok 3 Reasoning Beta и Grok 3 mini Reasoning за AIME 2025 при „@1“ - т.е. първия резултат, който моделите са получили на бенчмарка - са по-ниски от резултата на o3-mini-high. Grok 3 Reasoning Beta също така изостава съвсем малко от модела o1 на OpenAI, настроен на „средна“ изчислителна способност. Въпреки това xAI рекламира Grok 3 като „най-умния изкуствен интелект в света“.

Бабушкин твърди, че OpenAI е публикувала подобни подвеждащи сравнителни диаграми в миналото - макар и диаграми, сравняващи представянето на собствените ѝ модели.

Но, както посочва изследователят на изкуствения интелект Нейтън Ламбърт в своя публикация, може би най-важният показател остава загадка: изчислителните (и паричните) разходи, които са били необходими на всеки модел, за да постигне най-добрия си резултат. Това само показва колко малко информация съобщават повечето бенчмаркове за изкуствен интелект за ограниченията на моделите - и за техните силни страни.