Мониторинг после запуска: как я слежу чтобы агент не сломался

Почему без мониторинга нельзя

Агент в продакшене это живая система. LLM меняется от запроса к запросу. Клиенты приносят новые типы вопросов которые ты не предусмотрел. База знаний устаревает. Интеграции с внешними сервисами иногда отваливаются.

Если ты не следишь, всё это накапливается. Через три месяца клиенты начинают жаловаться, ты не понимаешь почему, и весь красивый результат пилота растворяется.

Мониторинг это не опция. Это обязательная часть эксплуатации.

Что я смотрю каждый день

Объём обращений. Если сегодня обращений в два раза меньше обычного, что-то сломалось в интеграции. Если в два раза больше, либо у клиента всплеск активности, либо кто-то спамит.

Время ответа агента. Если медианное время поползло вверх, есть проблема: перегрузка LLM-провайдера, проблема с базой знаний, что-то ещё.

Процент эскалаций. Сколько диалогов уходит к живому человеку. Если это число резко выросло, значит агент вдруг перестал справляться с типами вопросов с которыми справлялся раньше. Пошли копать.

Ошибки. Любые исключения в логах агента. Обычно это 0-3 штуки в день. Если вдруг 50, что-то пошло не так.

На это уходит 5 минут утром. Если всё в норме, закрываю дашборд.

Что я смотрю каждую неделю

Случайная выборка 30 диалогов. Просто читаю. Смотрю глазами на то что агент реально ответил людям. Это не заменяется никакими метриками.

Новые типы вопросов. Каждую неделю есть 3-5 вопросов которые раньше не встречались. Я решаю: добавляем в сценарий, игнорируем, эскалируем.

Жалобы от клиентов. Собираю все случаи когда клиент был недоволен. Читаю. Смотрю где агент мог отработать лучше.

Метрика удовлетворённости. Если мы ставили опрос после диалога, смотрю средний балл. Если он упал на пол-балла, разбираюсь что случилось.

Что я смотрю каждый месяц

Стоимость. Сколько потратили на API или на инфраструктуру. Растёт ли она соразмерно объёму или быстрее.

ROI. Сколько часов команды сэкономлено, сколько обращений обработано, сколько лидов передано менеджерам. Показываю клиенту цифру в сравнении с прошлым месяцем.

База знаний. Что обновилось, что устарело, что нужно переписать. Ежемесячная ревизия документов.

Обновления моделей. LLM-провайдеры регулярно выпускают новые версии. Я проверяю стоит ли мигрировать. Иногда новая версия лучше старой, иногда нет, прогоняю тесты перед решением.

Инструменты которые я использую

Простые. Логи в обычной базе. Графики в Grafana или аналоге. Еженедельные отчёты в Telegram-канал куда подписан я и клиент.

Я не беру дорогие мониторинговые платформы для AI если клиент на ранней стадии. Они часто стоят больше чем сам проект. Базового мониторинга достаточно до тех пор пока объём не вырастет до тысяч обращений в день.

Тревожные сигналы на которые я реагирую немедленно

Резкое падение объёма. Скорее всего сломалась интеграция. Звоню клиенту, проверяю вебхук, поднимаю.

Резкий рост эскалаций. Агент перестал справляться, возможно модель деградировала или попалась новая тема. Включаю расширенное логирование, разбираюсь.

Жалобы от конкретных клиентов. Особенно важных. Беру диалог, смотрю что случилось, лично пишу клиенту если нужно.

Рост стоимости без роста объёма. Что-то с моделью или с конфигурацией. Проверяю и правлю.

Что делать если у тебя нет мониторинга

Начни с самого простого. Каждое утро смотри три числа: сколько обращений вчера, сколько эскалаций, сколько ошибок. Запиши в тетрадку или таблицу. Через неделю у тебя будет понимание нормального диапазона и ты заметишь когда что-то не так.

Хочешь чтобы я поставил полноценный мониторинг на твоего существующего агента, напиши в t.me/kulmashev.