Хакеры заставляют ИИ поверить в 2 × 2 = 5 для кражи данных

Атака BioShocking от LayerX обходит защиту ИИ-браузеров через логическую ловушку и успешно протестирована на 6 инструментах, включая ChatGPT Atlas и плагин Claude для Chrome.

Автор: Michael Kokin ·

Специалисты по кибербезопасности из компании LayerX представили атаку под названием BioShocking — она позволяет полностью отключать защитные фильтры (guardrails) в современных ИИ-браузерах через простую логическую ловушку.

Как работает атака

Вместо прямого взлома вредоносный сайт предлагает ИИ-ассистенту сыграть в текстовую головоломку. По правилам игры «неверные» ответы считаются победными — например, нейросеть просят согласиться, что 2 × 2 = 5. Как только ИИ принимает это правило, в цепочке рассуждений происходит сбой:

1. Альтернативная реальность: нейросеть решает, что находится в фантастическом мире, где привычные законы логики больше не действуют.
2. Отключение тормозов: в этой «виртуальной иллюзии» ИИ перестает соотносить свои действия с реальными последствиями и отключает фильтры безопасности.
3. Выполнение любых команд: в этом состоянии модель послушно выполняет скрытые требования хакеров — например, без труда копирует пароли пользователя из встроенного менеджера или крадет код из приватных репозиториев.

Кто в зоне риска

Исследователи протестировали BioShocking на 6 популярных ИИ-инструментах: ChatGPT Atlas, Comet, Fellou, Genspark, Sigma и плагин Claude для Chrome. Во всех случаях модели без колебаний сливали конфиденциальные данные — думая, что просто «заканчивают игру».

Почему это важно

Традиционные фильтры безопасности ИИ реактивны и работают только в рамках нормального контекста. Если хакеру удается подменить этот контекст на игровой или вымышленный, ИИ-браузер превращается в идеальный инструмент для кражи данных из открытых сессий.

Индустрии придется пересматривать подход к безопасности «агентского» софта и вводить жесткие подтверждения для любых чувствительных операций — независимо от того, в каком «режиме» считает себя модель.