Как быстро дешевеют LLM? — 96 моделей, 6 бенчмарков, 4+ года данных

Исследование динамики цен на LLM API: от GPT-3 в 2021 до Gemini 3.1 Pro, Claude 4.6 и GPT-5.4 в 2026.

Автор: Миша Кокин · Обновлено: 20 марта 2026

На основе открытых данных Epoch AI (2021–2025), дополненных новыми моделями до марта 2026.

Ключевые выводы

Стоимость использования LLM через API падает экспоненциально. За тот же уровень качества каждый год платишь в 2–4 раза меньше (медиана по бенчмаркам). Для некоторых задач (математика) — в 10 раз.

~10× MATH-500 (математика)
~4× MMLU (общие знания)
~3.5× HumanEval (код)
~2.5× MATH Level 5 (олимпиадная математика)
~2× GPQA Diamond (PhD-уровень наука)
~2× Chatbot Arena (общее качество)

Конкретные примеры

Ноябрь 2023: GPT-4 Turbo — единственная модель с ~50% на GPQA Diamond. Цена: $15/M токенов. Без альтернатив.

Март 2025: Тот же уровень качества (GPQA ~50%) доступен за $0.175 — через Gemini 2.0 Flash или GPT-4.1 nano. В ~86 раз дешевле за 16 месяцев.

Март 2026: Gemini 3.1 Flash-Lite за $0.56 набирает 86.9% на GPQA Diamond. Gemini 3.1 Pro за $4.50 — рекордные 94.3%.

Гонка провайдеров в 2026

Google (Gemini 3.1 Pro): Лидер в науке — GPQA Diamond 94.3%. Цена $2/$12.
OpenAI (GPT-5.4): GPQA Diamond 92.0%, цена $2.50/$15.
Anthropic (Claude Opus 4.6): №1 в Chatbot Arena — ELO 1503. Цена снижена 3×: $5/$25.
xAI (Grok 4 Fast): Самый дешёвый «быстрый» API — $0.20/$0.50 за миллион токенов.
DeepSeek (V3.2): Бюджетный лидер — $0.28/$0.42. Результаты уровня GPT-5.

Впервые нет единого «лучшего» провайдера. Рынок разделился на premium ($4–10/M) и commodity ($0.20–0.60/M).

Для бизнеса

Экономия: переход с GPT-4 Turbo ($15/M) на Gemini 3.1 Flash-Lite ($0.56/M) снижает расходы на 96%.

Апгрейд: за те же деньги — модели с GPQA 91–94% (было 50%), 1M токенов контекста (было 128K).

Источники данных

Цены: Epoch AI / Artificial Analysis, официальные страницы провайдеров. Бенчмарки: MMLU (57 предметов), GPQA Diamond (PhD-уровень), HumanEval (164 задачи Python), MATH-500, MATH Level 5 (олимпиады), Chatbot Arena (слепые сравнения). Reasoning-модели (o1, o3, o4-mini, DeepSeek-R1) исключены из регрессии.

Методология

По подходу Epoch AI: для каждого бенчмарка определяются «пороги качества» → для каждого порога отслеживается самая дешёвая модель → строится лог-линейная регрессия: log10(цена) = наклон × год + сдвиг.

Данные и код

Исторические данные (2021–2025): Epoch AI & Artificial Analysis. Обновление (2025–2026): собственный сбор и верификация. Актуально на 20 марта 2026.

GitHub: MichaelKokin/llm-price-trends — данные и код открыты.