Codex сжигает токены? 7 способов снизить расходы на 50-80% | DogeSMS
Codex / Claude / Cursor становятся дорогими? Гайд: где находятся токен-дыры, почему длинные сессии стоят дороже, что такое Context Engineering и 7 принципов снижения расходов на 50-80%.
TL;DR — 7 принципов, снижающих расходы Codex на 50-80%
Первая реакция большинства разработчиков на Codex — не «AI крутой». Это: «чёрт, токены горят слишком быстро».
Корневая причина редко в модели. Это отходы в воркфлоу. Эти 7 сдвигов работают вместе:
- Не скармливать AI весь проект — больше файлов = больше токенов, рассеянное внимание, нестабильный вывод
- Одна задача — одна сессия — «заодно оптимизируй весь проект» — это токен-чёрная-дыра
- Перезапускать сессию — длинные разговоры экспоненциально дорожают
- Не вставлять правила заново каждый раз — положить их в
AGENTS.md/coding_rules.md - Debug стоит куда меньше генерации — анализ бага дёшев; генерация 500 строк — нет
- Размытые промпты жгут токены — AI гадает, повторяет, расходится
- Маленькие итерации лучше one-shot генерации — «сделай мне SaaS» — самая большая чёрная дыра
Подробно ниже.
Что вы возможно ищете (быстрая карта)
| Что вы ищете | Раздел |
|---|---|
| Почему Codex со временем становится дороже? | Проблема длинной сессии |
| Как снизить расход токенов AI кодинга? | 7 принципов |
| Почему AI жжёт токены при чтении репозитория? | Ловушка «весь проект» |
| Почему длинные разговоры так дороги? | Чёрная дыра длинной сессии |
| Как снизить стоимость Claude / Codex? | Чеклист |
| Что такое Context Engineering? | Раздел Context Engineering |
| Почему Cursor тоже жжёт токены? | Это не Codex-специфика |
Реальная стоимость — не вывод, а контекст
Большинство думает, что генерация кода — самое дорогое. Часто это не так.
Контекст — настоящая чёрная дыра.
Что считается контекстом? Всё, что AI видит в данный момент:
- История чата
- Файлы проекта
- README
- Логи ошибок
- Открытые файлы
- Сам промпт
- Diff кода
- Вывод терминала
Всё это тарифицируется в токенах. И когда AI перечитывает контекст, который вам не нужен — вчерашнюю историю чата, нерелевантные файлы, устаревшие README — вы платите за шум.
Почему длинные разговоры экспоненциально дорожают
Это самая большая ловушка, которую большинство пользователей не замечают.
Запрос 1: Почини этот баг логина — может стоить 5K токенов.
Запрос 30 в той же сессии: AI должен перечитать всю предыдущую переписку + весь предыдущий код + все diff + каждое предыдущее изменение. Один запрос может теперь стоить 100K+ токенов.
Люди, которые реально экономят, часто перезапускают сессию. Одна задача на сессию. Решена → закрыли.
Кажется удобнее продолжать чат. На самом деле это токен-мясорубка.
Дешёвый воркфлоу: короткие сессии + повторное описание контекста
Шаг 1 — Короткая сессия
Одна задача на сессию. Почини баг логина — как только починили, открываете новый чат.
Шаг 2 — Заново описать контекст
Не заставлять AI таскать историю. Расскажите снова, коротко:
Проект: React + Next.js
Проблема: спиннер логина зависает
Связанные файлы: login.tsx / auth.ts
Это в десятки раз дешевле, чем продолжать чат на 30 ходов. Короткий контекст vs длинная история — это не маленькая разница, это математика.
Почему «прочитать весь репо» жжёт токены
Новички любят проанализируй весь репозиторий. Затем отправляют весь monorepo как контекст — легко несколько сотен тысяч токенов.
Реальная история провала: Первый раз когда я сказал Codex «проанализируй этот monorepo», один запрос сжёг несколько сотен тысяч токенов. Полезная информация оказалась только в файлах auth.
Правильно: дать только файлы, относящиеся к текущей задаче.
Не: весь проект.
А: auth.ts / login.tsx / middleware.ts.
Потолок качества AI кодинга — не «большой контекст», а релевантный контекст.
Почему размытые промпты жгут токены
Оптимизируй этот проект — один из самых дорогих промптов.
AI не знает:
- Что оптимизировать
- Какую часть
- Цель
- Ограничения
Поэтому делает много всего. Длинный вывод. Куча нерелевантных изменений. Высокая стоимость токенов.
Дешёвый промпт:
Оптимизировать только логику логина.
Не менять UI.
Не менять БД.
Не добавлять зависимости.
Чем чётче граница, тем ниже расход токенов.
Почему «сделай мне SaaS» — токен-самоубийство
Когда вы просите целую систему за один проход, AI настраивает:
- БД
- API
- Auth
- Админку
- Права
- UI
- Деплой
→ Огромный вывод. Огромная стоимость.
Правильно — разбить на фазы:
| Фаза | Объём |
|---|---|
| 1 | Сначала анализ |
| 2 | Только схема БД |
| 3 | Только auth |
| 4 | Только dashboard |
| ... | ... |
Маленькие итерации куда дешевле one-shot генерации.
AGENTS.md / coding_rules.md — хватит вставлять правила заново
Многие вставляют это в каждом разговоре:
- Не рефакторить несвязанный код
- Держать diff маленькими
- Не добавлять зависимости
Это расточительно — каждый разговор повторно начисляет токены за эти правила.
Правильно: положить в coding_rules.md в корень репо:
Coding Rules:
- Keep diffs small
- No unnecessary dependencies
- Preserve architecture
- Do not rewrite unrelated code
Пусть Codex читает его один раз в начале каждой задачи — дешевле и стабильнее (нет риска забыть строку при копировании).
Вывод стоит больше входа
Дорогая часть обычно не входные данные. Это вывод — особенно генерация кода.
Генерация 500 строк React-компонента стоит куда больше, чем объяснение бага.
Ограничения, экономящие токены:
Keep answer concise.
Only show changed code.
Do not explain basics.
Токены вывода тарифицируются. Ограничивайте их.
Почему «сначала анализ» на самом деле дешевле
Новички думают, что анализ — лишний шаг.
Наоборот. Математика:
- Одна ошибочная генерация: легко 20K / 50K / 100K сожжённых токенов
- Анализ сначала: может быть 2K
Точка безубыточности так низка, что это почти не компромисс.
Дешёвый debug-воркфлоу
Do NOT fix yet.
First:
1. identify root cause
2. explain why
3. compare fixes
4. recommend smallest safe fix
Маленький diff = меньше токенов. Этот паттерн сокращает расход на один раунд debug примерно до 1/5 — 1/10 от того, что стоит «просто почини».
Не только Codex — Claude / Cursor / Gemini имеют ту же проблему
Проблема «контекст жжёт токены» не специфична для Codex. Claude Code, Cursor, Gemini CLI и ChatGPT Coding Agent — у всех она. Реальное узкое место стоимости AI кодинга никогда не было моделью — это управление контекстом.
Неправильно vs Правильно — шпаргалка
| Неправильно | Правильно |
|---|---|
| Та же сессия навсегда | Одна задача на сессию |
| Пусть AI читает весь репо | Только релевантные файлы |
| One-shot «сделай мне SaaS» | Маленькие фазированные итерации |
| Размытый промпт | Явные границы |
| Неограниченный вывод | «Only show changed code» |
| Заново вставлять правила | AGENTS.md / coding_rules.md |
| Чат растягивается до 30 ходов | Сброс сессии сразу после каждого фикса |
Context Engineering — навык, который важен
Термин, который вы будете видеть всё чаще: Context Engineering.
Просто: контролировать, что видит AI.
Люди, получающие максимум от AI кодинга — не те, кто впихивают больше всего контекста. Они дают AI только релевантное.
Главный принцип:
Не «больше контекста = лучше». «Больше релевантного контекста = лучше».
Чеклист дешёвого Codex
- [ ] Одна задача на сессию
- [ ] Перезапускать длинные чаты рано
- [ ] Не давать AI читать весь проект
- [ ] Передавать только релевантные файлы
- [ ] Ограничивать scope в промпте
- [ ] Лимитировать длину вывода (только diff)
- [ ] Использовать
AGENTS.md/coding_rules.md - [ ] Не делать one-shot целых систем
- [ ] Анализировать до починки
- [ ] Использовать промпт «find root cause first» для debug
В одной строке
Самый дешёвый способ использовать AI — не использовать его меньше, а делать каждый шаг более точным.
Большинство формулирует это как «AI дорогой». Это не так. Воркфлоу расточителен. Самая дорогая вещь в AI кодинге — не модель, а потеря контроля: разрастающиеся разговоры, неограниченные изменения, неограниченный вывод.
Что отделит продуктивных пользователей от расстроенных — не модель. Это Context Engineering.
Другие глубокие материалы по Codex из этого кластера:
→ Codex для начинающих: гайд по AI Coding Agent — 15 продвинутых техник, шаблоны промптов, сравнение Codex vs Cursor vs Claude Code
→ Как использовать Codex: гайд за 5 минут — Самый быстрый путь к первой продуктивной сессии Codex
→ Codex требует номер телефона: получить и проверить — Застряли на входе? Триаж по странам и решения с SMS