Как я поднимаю локального AI-агента за час. Стек который работает в 2026

Зачем вообще локально

Первый вопрос который мне задают клиенты: зачем локальный AI если есть OpenAI и Anthropic. Ответ простой: данные.

У половины моих клиентов есть информация которую нельзя отправлять в публичные API. Медицинские анкеты. Юридические документы. База клиентов с персональными данными. Внутренние переговоры. Пускать это через чужой сервер это риск который юридический отдел не одобрит.

Второй ответ: стоимость на объёме. Когда бот обрабатывает 50 обращений в день, разница между API и локальным запуском это пара долларов. Когда 5000, разница это сотни долларов в месяц. Умножь на год.

Стек который я беру

Три компонента. Локальная LLM через Ollama. Оркестратор агента на Python. База знаний в векторной БД.

Для LLM в 2026 я чаще всего беру Gemma 4. Она вышла 2 апреля под лицензией Apache 2.0, что значит её можно использовать в коммерческом проекте без плясок. Нативный function calling. Мультимодальность. Качество близко к коммерческим моделям на моих типичных задачах: обработка обращений, квалификация лидов, поиск в базе знаний.

Для оркестрации беру LangGraph. Причина: мне нужен граф состояний где я контролирую переходы, а не надеюсь что LLM сам догадается.

Для базы знаний беру Qdrant локально. Быстро, индексация понятная, под русский язык работает нормально если правильно подобрать эмбеддинг-модель.

Часовой план который я прохожу

Первые 10 минут. Поднимаю Ollama на сервере. Скачиваю Gemma 4. Проверяю что модель отвечает через curl.

Следующие 15 минут. Настраиваю Qdrant в докере. Создаю коллекцию под задачу клиента. Тестирую вставку и поиск.

Следующие 15 минут. Скелет агента на LangGraph. Три узла: приём вопроса, поиск в базе, генерация ответа.

Следующие 10 минут. Загружаю первые 50 документов клиента в базу знаний. Тестирую несколько реальных вопросов.

Последние 10 минут. Подключаю Telegram-бот как точку входа. Пускаю на первый реальный диалог.

Это не демо для презентации. Это рабочий стенд на котором клиент может увидеть свой процесс и сказать что поправить.

Где обычно спотыкаются

Первая проблема: железо. Gemma 4 на CPU работает но медленно. Нужна видеокарта хотя бы уровня 16 ГБ VRAM, лучше больше. Если её нет, берём в аренду сервер с GPU на месяц и смотрим стоит ли оно того.

Вторая проблема: эмбеддинги. Многие берут дефолтные модели которые плохо работают с русским. Я беру мультиязычные и проверяю качество поиска на реальных запросах клиента перед тем как загружать всю базу.

Третья проблема: галлюцинации. Локальная модель меньше коммерческой и иногда выдумывает. Лечится промптом с явным указанием отвечать только по найденным документам и возвращать признание если ответа нет.

Когда локалка не подходит

Если у клиента объём маленький, нет железа, нет чувствительных данных, и он хочет максимум качества, я не давлю на локальный стек. Пускаем через API, экономим время, смотрим результат. Если через три месяца объём вырастет, мигрируем.

Локалка не религия. Это инструмент для конкретных ситуаций.

Если тебе нужен такой стек

Напиши мне в t.me/kulmashev. Расскажи про свой кейс, я скажу стоит ли идти в локаль или проще на API начать. Без продажи, с нормальной оценкой.