Экономика локального AI на своём железе против API
Gemma 4 и OpenClaw изменили расчёт. Показываю на цифрах, когда локальный AI дешевле и когда всё ещё нет.
Контекст
До 2025 года разговор был простым. Нужен AI в проекте? Бери API, плати за токены, не думай об инфраструктуре. Self-hosted это было дорого, сложно и для редких случаев.
В 2026 ситуация другая. Gemma 4 вышла в апреле под Apache 2.0 с нативным function calling. Llama-модели стали плотнее. OpenClaw и аналоги поддерживают Ollama как провайдера. И это значит, что self-hosted вариант стал реалистичным уже для малого бизнеса, а не только для корпораций с серверной комнатой.
Разбираюсь, когда локальный AI реально дешевле.
Что сравниваем
Берём типичный сценарий: AI-агент первой линии поддержки. Объём примерно 3000 обращений в месяц, средний диалог 4-6 сообщений, средняя длина сообщения 200-400 токенов. На выходе около 3-5 миллионов токенов в месяц туда-сюда.
Считаем два варианта: API и self-hosted.
Вариант 1. API
Текущие цены на хорошую модель для такой задачи (условно Claude Haiku или GPT-4o mini уровень): около 0.5-1 доллара за миллион входных токенов и 2-4 доллара за миллион выходных. Добавим служебную работу (проверки, переформулировки, вызовы инструментов), получим фактический расход в 1.5-2 раза больше заявленного.
Итого: примерно 30-60 долларов в месяц на API для такого объёма. В рублях 3000-6000.
Плюс бесплатно получаем: отказоустойчивость провайдера, автообновление модели, нулевой devops, мгновенное начало работы.
Вариант 2. Self-hosted на своём железе
Нужно: небольшой сервер или мощный ПК с видеокартой. Для Gemma 4 достаточно видеокарты с 16-24 ГБ VRAM (RTX 4090 или 4080, или 3090 с рынка). Либо выделенный GPU-сервер у российских хостеров, около 20-35 тысяч рублей в месяц.
Разовые вложения (если покупаем своё железо): 200-350 тысяч рублей на сервер. Электричество, охлаждение, место: примерно 2-4 тысячи в месяц.
Либо арендованный GPU-сервер: 25 тысяч в месяц без разовых вложений.
И самое важное: devops и поддержка. Даже с готовым стеком типа Ollama + OpenClaw, это 5-15 часов в месяц чьего-то времени на обновления, мониторинг, исправление проблем.
Цифры за год
API: 45 долларов в месяц средне = 4500 рублей × 12 = 54 000 рублей. Плюс условные 5 часов в месяц на поддержку (оркестрация, промпт-инжиниринг) = 20 тысяч в год. Итого около 74 тысяч за год.
Self-hosted арендованный сервер: 25 000 × 12 = 300 000 рублей на инфру. Плюс 10 часов в месяц на devops = 40 тысяч в год. Итого около 340 тысяч за год.
Self-hosted на своём сервере: 300 000 разовые минус остаточная стоимость железа в конце года (примерно 200 000) = 100 000 амортизации + 3 000 × 12 электричества и места = 136 000. Плюс 10 часов в месяц devops = 40 тысяч. Итого около 176 тысяч за год.
Вывод по чистой экономике
По деньгам API пока выигрывает почти всегда для малого бизнеса с объёмом до 5-10 миллионов токенов в месяц. Разница в 4-5 раз в пользу API.
Если объём растёт до 50-100 миллионов токенов в месяц (это большой enterprise-кейс), математика переворачивается, и self-hosted становится дешевле.
Для малого и среднего бизнеса чистая экономика говорит: оставайся на API, не морочь голову.
Почему локальный AI всё равно берут
А теперь интересная часть. Я регулярно вижу клиентов, которые выбирают self-hosted, несмотря на то что дороже. Причин три.
Первая и главная. Данные. Если у тебя медицина, юрпрактика, финансы, HR с персональными данными или любая работа, где через агента проходят чувствительные документы, отдавать их во внешний API юридически сложно или вообще нельзя. Локальный вариант закрывает этот вопрос.
Вторая. Независимость от цен и политики провайдера. Цены на API меняются, модели депрекейтятся, условия для определённых сценариев ужесточаются. Self-hosted даёт стабильный прайс и контроль над моделью.
Третья. Скорость и приватность для специфичных нагрузок. Если агент должен обрабатывать много внутренних документов, self-hosted часто быстрее, потому что нет задержки на сеть и нет rate limits.
Практический совет
Если ты малый бизнес, у тебя 1-5 агентов для типовых задач (поддержка, квалификация лидов, первичная работа с заявками), начни на API. Не потому что он "лучше", а потому что это быстрее запустить и дешевле на малых объёмах.
Если ты в чувствительной нише (медицина, юрпрактика, финансы, внутренняя аналитика компании), сразу планируй self-hosted. Переносить потом дороже и больнее.
Если у тебя типовые задачи, но объёмы большие и растут, начинай на API и планируй миграцию в течение года. Самый экономичный путь часто оказывается гибридным: чувствительные операции локально, публичные операции через API.
Хочешь посчитать конкретно
Напиши в t.me/kulmashev, посчитаем твой кейс за полчаса и честно скажу, что дешевле именно у тебя.
Готовы внедрить эти решения в свой бизнес?
Запишитесь на бесплатный разбор ваших бизнес-процессов.
Связаться с нами