Почему так быстро кончаются токены в Claude Code

В коде нашли баг: auto-memory дублирует весь контекст фоновым вызовом. Плюс советы по экономии лимитов.

Автор: Michael Kokin ·

Почему так быстро кончаются токены в Claude Code?

Последние несколько дней лимиты в Claude Code даже на максимальном тарифе стали улетать (по ощущениям) в 2-3 раза быстрей. Все напряглись. И вот на Reddit, возможно, раскопали баг в декомпилированном коде (версии 2.1.74–2.1.83). Пишут, что если у вас включена auto-memory — а она включена по умолчанию — Claude Code после каждого сообщения фоново запускает параллельный API-вызов, который дублирует весь контекст разговора. Условно, в разговоре на 200K токенов ты сжигаешь 400K за ход. Отменить этот вызов нельзя, в логах он не виден, на быстрых сессиях может сработать 2–3 раза за сообщение.

Как пофиксить — вызвать /memory → выключить auto-memory.

Еще из того, за чем я слежу, чтобы укладываться в лимиты подписки или не тратить много через api:
— CLAUDE.md грузится в контекст целиком. Если там больше 200 строк, это жжет лишние токены на каждой сессии. Я выношу лишнее в .claude/rules/.
— Иногда проще запустить новую сессию. Или через двойной Escape вернуться к предыдущей фазе сессии. Это точно дешевле, чем тянуть разговор до компакции (это когда Claude суммаризирует диалог при заполненном контекстном окне — и часто теряет детали).
— Каждый подключенный MCP-сервер (GitHub, Jira, Docker) использует токены ещё до первого запроса. Поэтому я отключаю то, чем не пользуюсь в конкретной сессии. Особенно это касается десктопного приложения и вкладки Cowork.

Ну вроде все. Всем классно повайбкодить!