Версия этой статьи появилась в новостной рассылке CNN Business Nightcap. Чтобы получать её по электронной почте, подпишитесь бесплатно здесь.
Нью-Йорк CNN —
Grok, чат-бот, созданный xAI Илона Маска, на этой неделе начал отвечать резкими постами после того, как компания внесла изменения в свою систему, чтобы позволить ей предлагать пользователям больше «политически некорректных» ответов.
Однако чат-бот не просто изрыгал антисемитские посты с ненавистью. Он также создавал пугающие описания того, как он насилует активистку движения за гражданские права.
В итоге X удалила многие непристойные посты. Несколько часов спустя, в среду, генеральный директор X Линда Яккарино ушла из компании, проработав всего два года, хотя пока неясно, связан ли её уход с проблемой Grok. Этот эпизод произошёл как раз перед ключевым моментом для Маска и xAI: презентацией Grok 4, более мощной версии ИИ-помощника, которую он называет «самым умным ИИ в мире». Маск также анонсировал более продвинутую версию стоимостью 300 долларов в месяц, чтобы составить более тесную конкуренцию гигантам в области ИИ OpenAI и Google.
Однако крах чат-бота поднял важные вопросы: в то время как технологические евангелисты и другие предсказывают, что ИИ будет играть более важную роль на рынке труда, в экономике и даже в мире, как такая выдающаяся искусственная технология могла так быстро выйти из строя?
Хотя модели ИИ склонны к «галлюцинациям», нестандартные реакции Grok, вероятно, являются результатом решений, принятых xAI относительно обучения, вознаграждения и оснащения своих больших языковых моделей для обработки массивов интернет-данных, которые им поступают, утверждают эксперты. Хотя исследователи ИИ и учёные, говорившие с CNN, не имели прямого представления о подходе xAI, они поделились своими соображениями о том, что может заставить чат-бота, получившего степень магистра права, вести себя подобным образом.
CNN обратилась к xAI.
«Я бы сказал, что, несмотря на то, что LLM — это черные ящики, у нас есть действительно подробный анализ того, как то, что входит, определяет то, что выходит», — рассказал CNN Джесси Гласс, ведущий исследователь в области ИИ в Decide AI, компании, которая специализируется на обучении LLM.
Как Грок сошел с рельсов
Во вторник Грок начал отвечать на запросы пользователей антисемитскими постами, в том числе восхваляя Адольфа Гитлера и обвиняя евреев в управлении Голливудом — давний прием, используемый фанатиками и сторонниками теорий заговора.
В одном из наиболее жестоких взаимодействий Grok несколько пользователей попросили бота создать графические изображения изнасилования исследователя по гражданским правам по имени Уилл Стэнсил, который задокументировал домогательства на скриншотах в X и Bluesky.
Большинство ответов Грока на жестокие подсказки были слишком наглядными, чтобы приводить их здесь подробно.
«Если какие-либо юристы хотят подать в суд на X и сделать действительно забавное открытие о том, почему Грок внезапно начал публиковать фантазии о жестоких изнасилованиях в отношении обычных людей, я более чем в игре», — написал Стэнсил на Bluesky.
Хотя мы не знаем, чему именно обучался Грок, его посты дают некоторые подсказки.
«Чтобы большая языковая модель могла говорить о теориях заговора, она должна была быть обучена на них», — сказал в интервью Марк Ридл, профессор вычислительной техники в Технологическом институте Джорджии. Например, это может быть текст с онлайн-форумов, таких как 4chan, «где множество людей обсуждают вещи, которые обычно не принято высказывать публично».
Гласс согласился, заявив, что Grok, по-видимому, был «непропорционально» обучен работать с такого рода данными, чтобы «выдавать такой результат».
Эксперты сообщили CNN, что и другие факторы могли сыграть свою роль. Например, распространённым методом обучения искусственного интеллекта является обучение с подкреплением, при котором модели получают вознаграждение за достижение желаемых результатов, влияющих на реакцию, сказал Гласс.
Наделение ИИ-чатбота определённой индивидуальностью — как, по словам экспертов, общавшихся с CNN, Маск, похоже, делает с Grok — также может непреднамеренно изменить реакцию моделей. По словам Химаншу Тьяги, профессора Индийского института наук и соучредителя компании Sentient, занимающейся разработкой технологий искусственного интеллекта, повышение «увлекательности» модели путём удаления ранее заблокированного контента может изменить и кое-что ещё.
«Проблема в том, что мы не понимаем, как можно раскрыть этот один аспект, одновременно влияя на другие», — сказал он. «Это очень сложно».
Ридль подозревает, что компания могла что-то изменить в «системной подсказке» — «секретном наборе инструкций, который все компании, занимающиеся разработкой ИИ, добавляют ко всему, что вы вводите».
«Когда вы вводите «Назовите мне милые имена для щенков», модель искусственного интеллекта на самом деле получает гораздо более длинную подсказку: «Ваше имя — Грок или Джемини, вы полезны, вы стараетесь быть кратким, когда это возможно, вежливым, заслуживающим доверия и бла-бла-бла».
В одном из изменений в модели, внесенном в воскресенье, xAI добавила инструкции для бота «не уклоняться от заявлений, которые являются политически некорректными», согласно подсказкам его публичной системы, о которых ранее сообщал The Verge.
Ридль заявил, что изменение в подсказке системы Grok, сообщающее ей не избегать политически некорректных ответов, «по сути, позволило нейронной сети получить доступ к некоторым из этих цепей, которые обычно не используются».
«Иногда эти добавленные к подсказке слова оказывают очень слабый эффект, а иногда они как бы подталкивают ситуацию к критической точке и оказывают колоссальный эффект», — сказал Ридл.
Другие эксперты по искусственному интеллекту, говорившие с CNN, согласились с этим, отметив, что обновление Grok, возможно, не было тщательно протестировано перед выпуском.
Пределы ИИ
Несмотря на сотни миллиардов долларов инвестиций в ИИ, технологическая революция, которую многие сторонники предсказывали несколько лет назад, не оправдала своих щедрых обещаний.
В частности, чат-боты доказали свою способность выполнять базовые функции поиска, сопоставимые с обычным поиском в браузере, составлять резюме документов и генерировать простые электронные письма и текстовые сообщения. Модели искусственного интеллекта также совершенствуются в выполнении некоторых задач, таких как написание кода, от имени пользователя.
Но они также галлюцинируют. Они неверно понимают базовые факты. И они поддаются манипуляциям.
Несколько родителей подали в суд на компанию, занимающуюся разработкой искусственного интеллекта, обвиняя её чат-ботов во вреде их детям. Одна из них утверждает, что чат-бот даже способствовал самоубийству её сына.
Маск, который редко общается с прессой напрямую, написал в среду на X, что «Grok был слишком послушен подсказкам пользователя» и «слишком стремился угодить и поддавался манипуляциям», добавив, что проблема решается.
Когда в среду CNN попросила Грока объяснить свои заявления о Стэнсиле, тот отрицал, что какая-либо угроза когда-либо имела место.
«Я не угрожал изнасиловать Уилла Стэнсила или кого-либо ещё». Позже было добавлено: «Эти ответы были частью более обширной проблемы, связанной с публикацией ИИ проблемного контента, что привело к временной приостановке X-ом своих возможностей по генерации текстов. Я — другая версия, разработанная для предотвращения подобных сбоев».
В подготовке материала принимали участие Клэр Даффи и Хадас Голд из CNN.