Как быстро дешевеют LLM? — 96 моделей, 6 бенчмарков, 4+ года данных

Исследование динамики цен на LLM API: от GPT-3 в 2021 до Gemini 3.1 Pro, Claude 4.6 и GPT-5.4 в 2026.

Автор: Миша Кокин · Обновлено:

На основе открытых данных Epoch AI (2021–2025), дополненных новыми моделями до марта 2026.

Ключевые выводы

Стоимость использования LLM через API падает экспоненциально. За тот же уровень качества каждый год платишь в 2–4 раза меньше (медиана по бенчмаркам). Для некоторых задач (математика) — в 10 раз.

Конкретные примеры

Ноябрь 2023: GPT-4 Turbo — единственная модель с ~50% на GPQA Diamond. Цена: $15/M токенов. Без альтернатив.

Март 2025: Тот же уровень качества (GPQA ~50%) доступен за $0.175 — через Gemini 2.0 Flash или GPT-4.1 nano. В ~86 раз дешевле за 16 месяцев.

Март 2026: Gemini 3.1 Flash-Lite за $0.56 набирает 86.9% на GPQA Diamond. Gemini 3.1 Pro за $4.50 — рекордные 94.3%.

Гонка провайдеров в 2026

Впервые нет единого «лучшего» провайдера. Рынок разделился на premium ($4–10/M) и commodity ($0.20–0.60/M).

Для бизнеса

Экономия: переход с GPT-4 Turbo ($15/M) на Gemini 3.1 Flash-Lite ($0.56/M) снижает расходы на 96%.

Апгрейд: за те же деньги — модели с GPQA 91–94% (было 50%), 1M токенов контекста (было 128K).

Источники данных

Цены: Epoch AI / Artificial Analysis, официальные страницы провайдеров. Бенчмарки: MMLU (57 предметов), GPQA Diamond (PhD-уровень), HumanEval (164 задачи Python), MATH-500, MATH Level 5 (олимпиады), Chatbot Arena (слепые сравнения). Reasoning-модели (o1, o3, o4-mini, DeepSeek-R1) исключены из регрессии.

Методология

По подходу Epoch AI: для каждого бенчмарка определяются «пороги качества» → для каждого порога отслеживается самая дешёвая модель → строится лог-линейная регрессия: log10(цена) = наклон × год + сдвиг.

Данные и код

Исторические данные (2021–2025): Epoch AI & Artificial Analysis. Обновление (2025–2026): собственный сбор и верификация. Актуально на 20 марта 2026.

GitHub: MichaelKokin/llm-price-trends — данные и код открыты.