Self-hosted или OpenAI: как я выбираю под клиента в 2026
Не идеологический вопрос, а вопрос стоимости, контроля и чувствительности данных. Рассказываю на цифрах как я выбираю.
Ложная дихотомия
Первый раз когда клиент спрашивает self-hosted или OpenAI, он ждёт что я скажу одно из двух и защищу свой выбор. На самом деле я задаю ему четыре вопроса и только потом решаю.
Объём обращений в месяц. Чувствительность данных которые будут проходить через модель. Готовность платить за собственное железо или арендовать GPU-сервер. Горизонт проекта: это пилот на месяц или длинная история.
По этим четырём ответам выбор очевиден в 80% случаев.
Когда я беру OpenAI или Claude API
Малый объём до 2000 запросов в день. Данные не чувствительные или уже обезличены. Клиент хочет максимальное качество. Горизонт проекта короткий или средний.
В этом случае API побеждает. Стоимость предсказуемая, качество топ, нет возни с железом, нет DevOps-нагрузки. На пилоте мы обычно стартуем именно так.
Я ставлю OpenAI когда надо быстро показать что идея работает и получить обратную связь клиента. Возиться с локальным стеком на первом шаге значит потратить две недели на инфраструктуру вместо того чтобы проверить гипотезу.
Когда я перехожу на self-hosted
Объём вырос. Я видел клиентов у которых через три месяца работы бота стоимость API выросла с 80 долларов до 600 долларов в месяц. На 600 долларах уже окупается собственный сервер, и экономия идёт каждый месяц дальше.
Появились чувствительные данные. Медицинская информация, юридические документы, переговоры, персональные данные клиентов, всё это я не буду пускать через публичный API без прямого письменного разрешения клиента и его юриста. Проще поднять локально.
Клиент просит независимость. Бывают ситуации когда клиент строит продукт который он хочет продавать другим. В этом случае зависимость от одного API-провайдера это стратегический риск. Если OpenAI завтра поднимет цену в три раза или сменит политику, весь бизнес клиента заложник. Свой стек снимает этот риск.
Цифры которые я показываю клиенту
Чтобы решение не было эмоциональным, я показываю простую таблицу.
API вариант: фиксированная цена за 1000 запросов, умножаем на прогноз объёма, прибавляем 20% на рост. Это твоя переменная часть. Плюс ноль за инфраструктуру.
Self-hosted вариант: разовая стоимость железа или аренды GPU, плюс электричество или хостинг, плюс моё время на поднятие и поддержку. Обычно это фикс в месяц, не зависит от объёма.
Пересечение этих двух линий это точка где self-hosted становится дешевле. Я считаю её для клиента перед принятием решения.
Когда self-hosted это плохо
Клиент говорит: мне важнее всего максимальное качество, объём небольшой, данных чувствительных нет. В этом случае self-hosted это ненужная сложность. Ему лучше идти на API.
Клиент говорит: я хочу быстро протестировать гипотезу за неделю. Берём API. Self-hosted за неделю не соберёшь так чтобы было надёжно.
Клиент говорит: у меня нет никого кто будет поддерживать сервер. Либо мы договариваемся что поддержку ведёт K + AI Studio, либо берём API и не создаём проблем у клиента.
Гибрид который тоже работает
Есть третий вариант. Чувствительные шаги делаем на локальной модели, а нечувствительные и тяжёлые можем пустить через API. Например, классификация обращений локально, а длинный креативный ответ через Claude. Это даёт и безопасность, и качество, и разумную стоимость.
Как решить в твоём случае
Четыре вопроса. Объём, чувствительность, железо, горизонт. Напиши мне в t.me/kulmashev ответы на эти четыре и я скажу какой путь взял бы я.
Готовы внедрить эти решения в свой бизнес?
Запишитесь на бесплатный разбор ваших бизнес-процессов.
Связаться с нами