Тестирование агента на реальных данных: что и как я проверяю

Почему синтетические тесты не работают

Когда ты придумываешь тестовые вопросы сам, они обычно получаются чище чем реальные. У тебя в голове правильная формулировка. Ты помнишь про пунктуацию. Ты пишешь полные предложения.

Реальные клиенты пишут иначе. С опечатками. Без контекста. Сокращениями. Голосовыми которые транскрибировались криво. Эмодзи вместо слов. Вопросы из середины фразы без начала.

Агент натренированный на чистых примерах валится на реальных. Поэтому я стараюсь тестировать только на реальных данных.

Где взять реальные данные без риска

Первый источник: исторические переписки клиента. У клиента обычно есть архив обращений за последние месяцы. Я прошу выгрузить 200-300 случайных диалогов и обезличиваю их.

Второй источник: режим параллельной работы. Агент работает в фоне, видит реальные обращения, формирует ответы, но ответы не отправляются клиентам. Они идут в лог для ревью. Я с сотрудником клиента смотрю: что агент предлагал, насколько это правильно, где ошибся.

Второй подход я предпочитаю. Он даёт свежие данные и не требует обезличивания.

Что я проверяю

Полнота ответов. Агент должен отвечать на весь вопрос клиента, а не только на первое предложение. Если клиент задал три подвопроса в одном сообщении, агент должен закрыть все три.

Точность по фактам. Если агент ссылается на документы клиента, факты должны совпадать. Я беру каждый ответ и проверяю совпадает ли с базой знаний.

Тон. Соответствует ли ответ голосу бренда который мы настроили.

Эскалация. В ситуациях где агент должен передать человеку, передаёт ли он. Не пытается ли отвечать на то что не должен.

Безопасность. Не раскрывает ли агент внутренние данные которых клиенты не должны видеть. Не обещает ли скидки или условия которых не существует.

Как я ловлю проблемы

Простой способ который работает лучше сложных. Я прошу сотрудника клиента пометить каждый ответ агента одной из четырёх меток. Отлично. Нормально. Спорно. Неправильно.

После 200-300 таких оценок у меня получается понятная картина. Где агент уверенно хорош, где спорен, где плохо. Далее я работаю точечно с категориями где есть проблемы. Не с типами вопросов "в общем", а с конкретными случаями где помечено "неправильно".

Это скучная ручная работа. Но она даёт больше пользы чем любые автоматические метрики в первом пилоте.

Что делать с ошибками

Не все ошибки одинаково важны. Я делю их на три категории.

Критичные. Агент сообщает клиенту неверную цену или неправильную информацию которая приведёт к конфликту. Эти правим в первую очередь, иногда отключаем соответствующие сценарии пока не починим.

Существенные. Агент дает неполный или не очень точный ответ, но не вредный. Клиент получает меньше ценности, но не вводится в заблуждение. Правим на следующей итерации.

Стилистические. Тон чуть не попал. Формулировка корявая. Эти править можно не срочно, но я их собираю и в конце недели делаю один проход по ним всем сразу.

Когда тесты заканчиваются

Короткий ответ: никогда. Я всегда держу прослушку части диалогов даже после запуска. Это позволяет ловить деградацию и новые типы обращений.

Первый фокусный этап тестирования обычно занимает неделю и заканчивается когда доля ответов "нормально или отлично" превышает 85%. До этого порога агента не выпускаю к клиентам.

Что делать тебе

Если твой агент сейчас в продакшене и у тебя нет системы ревью, ты не знаешь что он реально отвечает. Это риск. Начни с простого: раз в неделю 20 случайных диалогов, команду в Excel на пять минут.

Хочешь чтобы я поставил нормальный процесс тестирования на твой существующий стек, пиши в t.me/kulmashev.