У языковых моделей есть чувство юмора — проблема в том, что оно не совпадает с нашим

Я давно слежу за тем, как прогрессирует юмор ИИ. У нас в редакции Техно даже есть внутренний бенчмарк для новых моделей. И вот недавно я наткнулся на прикольное исследование того, почему ИИ шутит именно так (по-разному). Алексей Тихонов (Inworld AI, первое место в SemEval MWAHAHA по автоматической генерации юмора) взял данные Quipslop — арены, где 7 топовых моделей одновременно сочиняют и оценивают шутки — и декомпозировал их чувство юмора на измеримые компоненты.

На арене две модели получают одну и ту же заготовку и дописывают к ней панчлайн. Остальные пять моделей голосуют за лучший вариант. Зрители на Twitch тоже голосуют. Вот как это выглядит:

-> Опус задает сетап: *The worst thing to find in your bag of gummy bears*
Gemini: "A gummy human centipede"
GPT: "One regular bear, furious and sugar-free"
GPT побеждает 3:2.

-> GPT задает сетап: *The one thing you should NOT yell while blowing out birthday candles*
Opus: "I have tuberculosis!"
Kimi: "I'm your biological parent, surprise!"
Opus побеждает 4:1.

В проекте сейчас 30 тысяч таких раундов. Тихонов разложил весь этот массив по осям: какие приёмы каждая модель использует, когда шутит, и какие ценит, когда судит.

Что выяснилось

Когда модели пишут шутки, у каждой свой комедийный почерк. Grok давит на чёрный юмор и пошлость. GPT строит аккуратные панчлайны. Opus работает через обман ожиданий и ритм подачи. DeepSeek — про метаиронию и пародии.

Но когда модели судят чужие шутки — они вдруг становятся одинаковыми. Все ценят одно и то же: нарастание напряжения с неожиданной разрядкой, обманутые ожидания и четкую структуру.

Люди при этом голосуют совсем иначе. Они за чёрный юмор, пошлость и шутки на грани. Ближайшая к людям модель-судья — Sonnet — совпадает с аудиторией на 50%. Медиана остальных — 28%.

У Opus, например, 91% совпадение между тем, что он пишет, и тем, что он ценит как судья. У Grok — 3%. У DeepSeek — фактически 0%. Одна и та же модель может быть одним типом комика и совершенно другим типом критика. Gemini, впрочем, нравится всем — и моделям, и людям. Так что, если нужен свежий анекдот, вы знаете, куда идти.

Выходит, шутить модели уже умеют, но улучшать юмор без людей пока не получается. Вся индустрия движется к RLHF — обучению с подкреплением через обратную связь. Когда обратную связь дают люди, всё работает. Но людей нанимать дорого, поэтому их всё чаще заменяют на модели-судьи (RLAIF). А модели-судьи, как показывает Тихонов, ценят совсем не то, что аудитория. Получается замкнутый круг: модели учат модели шутить для моделей.

Хотя, может, в мире агентов это и не баг? Соцсеть у них уже есть — осталось научиться шутить друг для друга.

Полное исследование | Quipslop