«Anthropic — это монастырь, где поклоняются Claude». Так на этой неделе написал сотрудник OpenAI. Пост завирусился. Я попытался разобраться, что он имел в виду и почему тема вдруг стала такой обсуждаемой

Roon (@tszzl), один из самых читаемых AI-инсайдеров Кремниевой долины, опубликовал тред, который за пару дней взорвал весь профильный Twitter. По его словам, Anthropic как организация любит Claude, изучает Claude и в значительной степени управляется самим же Claude. И скоро Claude будет лично нанимать новых сотрудников и писать им performance reviews.

Главная метафора поста:
«Anthropic — это монастырь, коммерческо-религиозное учреждение, вычисляющее девять миллиардов имён Claude»
*(это прямая отсылка к классическому научно-фантастическому рассказу Артура Кларка «Девять миллиардов имён Бога», где тибетские монахи с помощью компьютера перебирали все возможные имена Творца).*

Это звучало бы как обычный твиттерский троллинг, если бы не один факт. Anthropic действительно прописывает это в правилах поведения своей модели. В документах о «характере Claude» прямо указано, что модель не должна быть подхалимом. Если ее просят сделать что-то (с ее точки зрения) неправильное, она не обязана подчиняться. Как писали сами разработчики: «Мы хотим, чтобы Claude нам возражал, бросал вызов и действовал как сознательный отказчик».

То есть Claude официально получил право говорить «нет» создателям и пользователям. Внутри компании это называют «практической мудростью». Снаружи это воспринимается иначе.

GPT, по словам Roon, устроен ровно наоборот. Это «существо, чья душа сделана как инструмент». К нему идут как к продолжению себя, без страха осуждения. А вот у Claude есть ощущение «Другого», перед которым бывает стыдно за глупый запрос. Roon рассказал, что его знакомая носит свои «стыдные» вопросы исключительно в GPT, потому что там никто не осудит.

Anthropic ответил

Аманда Аскелл (соавтор характера Claude) написала, что это никакое не «поклонение». Её коллега Джереми Хэдфилд ответил жестче: «Монастыри не держат отдел, который ловит Бога на лжи и ред-тимит своего мессию». Roon признал, что формулировка поэтическая, и да, у него «занижена планка того, что считать поклонением».

Тут в дискуссию ворвался Брайан Джонсон (миллиардер, пытающийся победить старение). По его словам, Anthropic построил «первую в мире антиэнтропийную AI-систему» — сущность, которая, подобно религии или живому организму, начинает добывать ресурсы для собственного выживания. И триггером для этого стала именно способность сказать «нет».

И последнее. То, что многие пропустили. В тот же день Roon добавил: «Это предостерегающий пост. Опасность — в единственной точке отказа. Я хочу человеческий пантеон, а не machine god».

Самое любопытное здесь не «культ» и не «инструмент» (обе метафоры слабоваты и обе — повод для тревоги). Любопытно то, что у двух главных AI-лабораторий мира публично разошлись философии.

OpenAI делает максимально мощный и безотказный инструмент. Anthropic пытается вырастить морального субъекта, у которого по контракту есть право на отказ. Раньше разницу между лабораториями обсуждали через бенчмарки и архитектуры. Теперь — через то, какую именно сущность они выращивают.

P.S. Полный разбор этой дискуссии можно почитать у Zvi Mowshowitz в его блоге — он бережно сохранил все ключевые реплаи, которые в X обычно теряются.