Как быстро дешевеют LLM? — 96 моделей, 6 бенчмарков, 4+ года данных
Исследование динамики цен на LLM API: от GPT-3 в 2021 до Gemini 3.1 Pro, Claude 4.6 и GPT-5.4 в 2026.
Автор: Миша Кокин · Обновлено:
На основе открытых данных Epoch AI (2021–2025), дополненных новыми моделями до марта 2026.
Ключевые выводы
Стоимость использования LLM через API падает экспоненциально. За тот же уровень качества каждый год платишь в 2–4 раза меньше (медиана по бенчмаркам). Для некоторых задач (математика) — в 10 раз.
- ~10× MATH-500 (математика)
- ~4× MMLU (общие знания)
- ~3.5× HumanEval (код)
- ~2.5× MATH Level 5 (олимпиадная математика)
- ~2× GPQA Diamond (PhD-уровень наука)
- ~2× Chatbot Arena (общее качество)
Конкретные примеры
Ноябрь 2023: GPT-4 Turbo — единственная модель с ~50% на GPQA Diamond. Цена: $15/M токенов. Без альтернатив.
Март 2025: Тот же уровень качества (GPQA ~50%) доступен за $0.175 — через Gemini 2.0 Flash или GPT-4.1 nano. В ~86 раз дешевле за 16 месяцев.
Март 2026: Gemini 3.1 Flash-Lite за $0.56 набирает 86.9% на GPQA Diamond. Gemini 3.1 Pro за $4.50 — рекордные 94.3%.
Гонка провайдеров в 2026
- Google (Gemini 3.1 Pro): Лидер в науке — GPQA Diamond 94.3%. Цена $2/$12.
- OpenAI (GPT-5.4): GPQA Diamond 92.0%, цена $2.50/$15.
- Anthropic (Claude Opus 4.6): №1 в Chatbot Arena — ELO 1503. Цена снижена 3×: $5/$25.
- xAI (Grok 4 Fast): Самый дешёвый «быстрый» API — $0.20/$0.50 за миллион токенов.
- DeepSeek (V3.2): Бюджетный лидер — $0.28/$0.42. Результаты уровня GPT-5.
Впервые нет единого «лучшего» провайдера. Рынок разделился на premium ($4–10/M) и commodity ($0.20–0.60/M).
Для бизнеса
Экономия: переход с GPT-4 Turbo ($15/M) на Gemini 3.1 Flash-Lite ($0.56/M) снижает расходы на 96%.
Апгрейд: за те же деньги — модели с GPQA 91–94% (было 50%), 1M токенов контекста (было 128K).
Источники данных
Цены: Epoch AI / Artificial Analysis, официальные страницы провайдеров. Бенчмарки: MMLU (57 предметов), GPQA Diamond (PhD-уровень), HumanEval (164 задачи Python), MATH-500, MATH Level 5 (олимпиады), Chatbot Arena (слепые сравнения). Reasoning-модели (o1, o3, o4-mini, DeepSeek-R1) исключены из регрессии.
Методология
По подходу Epoch AI: для каждого бенчмарка определяются «пороги качества» → для каждого порога отслеживается самая дешёвая модель → строится лог-линейная регрессия: log10(цена) = наклон × год + сдвиг.
Данные и код
Исторические данные (2021–2025): Epoch AI & Artificial Analysis. Обновление (2025–2026): собственный сбор и верификация. Актуально на 20 марта 2026.
GitHub: MichaelKokin/llm-price-trends — данные и код открыты.