Нов инструмент на Google позволява на AI да проверява фактите в отговорите си

Той е базиран на Data Commons - огромно хранилище на данни и статистики от надеждни източници като ООН или Центровете за контрол и превенция на заболяванията

Откакто съществуват чатботовете, те си измислят неща. Такива „халюцинации“ са неразделна част от начина, по който работят моделите на изкуствения интелект. Те обаче са голям проблем за компании като Google, която залага много на AI, тъй като правят генерираните отговори ненадеждни.

Затова и технологичният гигант пуска инструмент за справяне с този проблем. Наречен DataGemma, той използва два метода, за да помогне на големите езикови модели да проверяват фактите в отговорите си спрямо надеждни данни и да посочват източниците си по-прозрачно за потребителите.

Първият от двата метода се нарича Retrieval-Interleaved Generation (RIG) и действа като своеобразен проверител на факти. Ако потребителят зададе на модела въпрос „Увеличило ли се е използването на възобновяеми енергийни източници в света?“ например моделът ще предложи „първи вариант“ на отговора. След това RIG определя кои части от него могат да бъдат проверени спрямо Data Commons - огромно хранилище на данни и статистики от надеждни източници като ООН или Центровете за контрол и превенция на заболяванията. След това методът извършва тези проверки и заменя всички неверни първоначални предположения с верни факти. Освен това посочва на потребителя източниците си.

Компанията е сключил договори с няколко холивудски знаменитости, между които Джуди Денч, Кристен Бел и Джон Сина

AI чатботът на Meta ще говори с гласовете на известни актьори

Вторият метод, който обикновено се използва в други големи езикови модели, се нарича Retrieval-Augmented Generation (RAG). При запитване от типа „Какъв напредък е постигнал Пакистан по отношение на глобалните здравни цели?“ моделът проучва кои данни в Data Commons биха могли да му помогнат да отговори на въпроса, като например информация за достъпа до безопасна питейна вода, имунизациите срещу хепатит В и продължителността на живота. След като разполага с тези данни, моделът изгражда отговора си въз основа на тях и отново посочва източниците си.

„Нашата цел тук беше да използваме Data Commons, за да подобрим разсъжденията на големите езикови модели (LLM), като ги обосновем със статистически данни от реалния свят“, казва Прем Рамасвами, ръководител на Data Commons на Google, цитиран от MIT Technology Review. „По този начин ще се създаде по-надежден и сигурен изкуствен интелект“.

Засега новите инструменти са достъпни само за изследователи, но Рамасуами казва, че достъпът може да се разшири след повече тестове. Ако работят според очакванията, това може да помогне значително на Google да вгради AI по-дълбоко в своята търсачка.

Моделът o1 е постигнал 83% на квалификационния изпит за Международната олимпиада по математика, в сравнение с 13% за предишния модел GPT-4o

OpenAI пусна нова серия AI модели, способни да разсъждават

Но има множество уговорки. Първо, полезността на методите е ограничена от това дали съответните данни се намират в Data Commons, което е по-скоро хранилище за данни, отколкото енциклопедия. То може да ви каже БВП на Иран, но не е в състояние да потвърди датата на първата битка при Фалуджа или кога Тейлър Суифт е пуснала най-новия си сингъл. Всъщност изследователите на Google установяват, че при около 75% от тестовите въпроси методът RIG не е успял да получи никакви използваеми данни от Data Commons. И дори ако полезните данни наистина се намират там, моделът невинаги формулира правилните въпроси, за да ги намери.

На второ място, съществува въпросът за точността. При тестването на метода RAG изследователите установяват, че моделът дава грешни отговори в 6-20% от случаите. В същото време методът RIG извлича правилната статистика от Data Commons само в около 58% от случаите (въпреки че това е голямо подобрение в сравнение с 5% до 17% точност на големите езикови модели на Google, когато те не използват Data Commons).

Рамасуами казва, че точността на DataGemma ще се подобри, тъй като тя се обучава на все повече данни. Първоначалната версия е била обучена с едва около 700 въпроса, а фината настройка на модела е изисквала екипът му да проверява ръчно всеки отделен факт, който е генерирал. За да подобри инструмента, екипът планира да увеличи този набор от данни от стотици въпроси на милиони.

Сподели Сподели Сподели Сподели