Экономика локального AI на своём железе против API

Контекст

До 2025 года разговор был простым. Нужен AI в проекте? Бери API, плати за токены, не думай об инфраструктуре. Self-hosted это было дорого, сложно и для редких случаев.

В 2026 ситуация другая. Gemma 4 вышла в апреле под Apache 2.0 с нативным function calling. Llama-модели стали плотнее. наша платформа и аналоги поддерживают Ollama как провайдера. И это значит, что self-hosted вариант стал реалистичным уже для малого бизнеса, а не только для корпораций с серверной комнатой.

Разбираюсь, когда локальный AI реально дешевле.

Что сравниваем

Берём типичный сценарий: AI-агент первой линии поддержки. Объём примерно 3000 обращений в месяц, средний диалог 4-6 сообщений, средняя длина сообщения 200-400 токенов. На выходе около 3-5 миллионов токенов в месяц туда-сюда.

Считаем два варианта: API и self-hosted.

Вариант 1. API

Текущие цены на хорошую модель для такой задачи (условно Claude Haiku или GPT-4o mini уровень): около 0.5-1 доллара за миллион входных токенов и 2-4 доллара за миллион выходных. Добавим служебную работу (проверки, переформулировки, вызовы инструментов), получим фактический расход в 1.5-2 раза больше заявленного.

Итого: примерно 30-60 долларов в месяц на API для такого объёма. В рублях 3000-6000.

Плюс бесплатно получаем: отказоустойчивость провайдера, автообновление модели, нулевой devops, мгновенное начало работы.

Вариант 2. Self-hosted на своём железе

Нужно: небольшой сервер или мощный ПК с видеокартой. Для Gemma 4 достаточно видеокарты с 16-24 ГБ VRAM (RTX 4090 или 4080, или 3090 с рынка). Либо выделенный GPU-сервер у российских хостеров, около 20-35 тысяч рублей в месяц.

Разовые вложения (если покупаем своё железо): 200-350 тысяч рублей на сервер. Электричество, охлаждение, место: примерно 2-4 тысячи в месяц.

Либо арендованный GPU-сервер: 25 тысяч в месяц без разовых вложений.

И самое важное: devops и поддержка. Даже с готовым стеком типа Ollama + наша платформа, это 5-15 часов в месяц чьего-то времени на обновления, мониторинг, исправление проблем.

Цифры за год

API: 45 долларов в месяц средне = 4500 рублей × 12 = 54 000 рублей. Плюс условные 5 часов в месяц на поддержку (оркестрация, промпт-инжиниринг) = 20 тысяч в год. Итого около 74 тысяч за год.

Self-hosted арендованный сервер: 25 000 × 12 = 300 000 рублей на инфру. Плюс 10 часов в месяц на devops = 40 тысяч в год. Итого около 340 тысяч за год.

Self-hosted на своём сервере: 300 000 разовые минус остаточная стоимость железа в конце года (примерно 200 000) = 100 000 амортизации + 3 000 × 12 электричества и места = 136 000. Плюс 10 часов в месяц devops = 40 тысяч. Итого около 176 тысяч за год.

Вывод по чистой экономике

По деньгам API пока выигрывает почти всегда для малого бизнеса с объёмом до 5-10 миллионов токенов в месяц. Разница в 4-5 раз в пользу API.

Если объём растёт до 50-100 миллионов токенов в месяц (это большой enterprise-кейс), математика переворачивается, и self-hosted становится дешевле.

Для малого и среднего бизнеса чистая экономика говорит: оставайся на API, не морочь голову.

Почему локальный AI всё равно берут

А теперь интересная часть. Я регулярно вижу клиентов, которые выбирают self-hosted, несмотря на то что дороже. Причин три.

Первая и главная. Данные. Если у тебя медицина, юрпрактика, финансы, HR с персональными данными или любая работа, где через агента проходят чувствительные документы, отдавать их во внешний API юридически сложно или вообще нельзя. Локальный вариант закрывает этот вопрос.

Вторая. Независимость от цен и политики провайдера. Цены на API меняются, модели депрекейтятся, условия для определённых сценариев ужесточаются. Self-hosted даёт стабильный прайс и контроль над моделью.

Третья. Скорость и приватность для специфичных нагрузок. Если агент должен обрабатывать много внутренних документов, self-hosted часто быстрее, потому что нет задержки на сеть и нет rate limits.

Практический совет

Если ты малый бизнес, у тебя 1-5 агентов для типовых задач (поддержка, квалификация лидов, первичная работа с заявками), начни на API. Не потому что он "лучше", а потому что это быстрее запустить и дешевле на малых объёмах.

Если ты в чувствительной нише (медицина, юрпрактика, финансы, внутренняя аналитика компании), сразу планируй self-hosted. Переносить потом дороже и больнее.

Если у тебя типовые задачи, но объёмы большие и растут, начинай на API и планируй миграцию в течение года. Самый экономичный путь часто оказывается гибридным: чувствительные операции локально, публичные операции через API.

Хочешь посчитать конкретно

Напиши в t.me/kulmashev, посчитаем твой кейс за полчаса и честно скажу, что дешевле именно у тебя.