Self-hosted или OpenAI: как я выбираю под клиента в 2026

Ложная дихотомия

Первый раз когда клиент спрашивает self-hosted или OpenAI, он ждёт что я скажу одно из двух и защищу свой выбор. На самом деле я задаю ему четыре вопроса и только потом решаю.

Объём обращений в месяц. Чувствительность данных которые будут проходить через модель. Готовность платить за собственное железо или арендовать GPU-сервер. Горизонт проекта: это пилот на месяц или длинная история.

По этим четырём ответам выбор очевиден в 80% случаев.

Когда я беру OpenAI или Claude API

Малый объём до 2000 запросов в день. Данные не чувствительные или уже обезличены. Клиент хочет максимальное качество. Горизонт проекта короткий или средний.

В этом случае API побеждает. Стоимость предсказуемая, качество топ, нет возни с железом, нет DevOps-нагрузки. На пилоте мы обычно стартуем именно так.

Я ставлю OpenAI когда надо быстро показать что идея работает и получить обратную связь клиента. Возиться с локальным стеком на первом шаге значит потратить две недели на инфраструктуру вместо того чтобы проверить гипотезу.

Когда я перехожу на self-hosted

Объём вырос. Я видел клиентов у которых через три месяца работы бота стоимость API выросла с 80 долларов до 600 долларов в месяц. На 600 долларах уже окупается собственный сервер, и экономия идёт каждый месяц дальше.

Появились чувствительные данные. Медицинская информация, юридические документы, переговоры, персональные данные клиентов, всё это я не буду пускать через публичный API без прямого письменного разрешения клиента и его юриста. Проще поднять локально.

Клиент просит независимость. Бывают ситуации когда клиент строит продукт который он хочет продавать другим. В этом случае зависимость от одного API-провайдера это стратегический риск. Если OpenAI завтра поднимет цену в три раза или сменит политику, весь бизнес клиента заложник. Свой стек снимает этот риск.

Цифры которые я показываю клиенту

Чтобы решение не было эмоциональным, я показываю простую таблицу.

API вариант: фиксированная цена за 1000 запросов, умножаем на прогноз объёма, прибавляем 20% на рост. Это твоя переменная часть. Плюс ноль за инфраструктуру.

Self-hosted вариант: разовая стоимость железа или аренды GPU, плюс электричество или хостинг, плюс моё время на поднятие и поддержку. Обычно это фикс в месяц, не зависит от объёма.

Пересечение этих двух линий это точка где self-hosted становится дешевле. Я считаю её для клиента перед принятием решения.

Когда self-hosted это плохо

Клиент говорит: мне важнее всего максимальное качество, объём небольшой, данных чувствительных нет. В этом случае self-hosted это ненужная сложность. Ему лучше идти на API.

Клиент говорит: я хочу быстро протестировать гипотезу за неделю. Берём API. Self-hosted за неделю не соберёшь так чтобы было надёжно.

Клиент говорит: у меня нет никого кто будет поддерживать сервер. Либо мы договариваемся что поддержку ведёт Kai IT Pro, либо берём API и не создаём проблем у клиента.

Гибрид который тоже работает

Есть третий вариант. Чувствительные шаги делаем на локальной модели, а нечувствительные и тяжёлые можем пустить через API. Например, классификация обращений локально, а длинный креативный ответ через Claude. Это даёт и безопасность, и качество, и разумную стоимость.

Как решить в твоём случае

Четыре вопроса. Объём, чувствительность, железо, горизонт. Напиши мне в t.me/kulmashev ответы на эти четыре и я скажу какой путь взял бы я.