x20
к скорости поиска
Система обрабатывает более 85 000 запросов в сутки, сокращает время ответа клиенту и нравится 93% сотрудников. Рассказываем, как за 4 месяца запустили RAG-решение для контакт-центра Альфа-Банка

Альфа-Банк — крупнейший частный банк России, входит в топ-10 системно значимых кредитных организаций. Обслуживает более 40 млн частных и 2 млн корпоративных клиентов.
В штате банка более 40 000 сотрудников. Контакт-центр обрабатывает десятки тысяч обращений в сутки: 12 000 операторов отвечают на вопросы клиентов — по продуктам, тарифам, условиям обслуживания.
Раньше сотрудники вручную искали данные в базе знаний и формировали ответ. Чтобы ускорить работу операторов и улучшить клиентский опыт, MLOps-команда Альфа-Банка и KTS разработали AI‑платформу на основе RAG. Как она работает и какие результаты получили, рассказываем в кейсе.
x20
к скорости поиска
40 сек
на столько сократили время ответа
93%
положительных оценок

Команда Альфа-Банка проанализировала работу операторов и выдвинула гипотезу: внедрение AI-решения ускорит ответ клиенту на 30-40 секунд. В среднем обработка запроса занимала 5 минут: оператор вручную искал нужную статью в базе знаний, при необходимости заходил в первоисточники и формулировал ответ.

Выбрали RAG-технологию — это архитектурный подход, в котором система извлекает релевантную информацию из внешних источников знаний, а затем передаёт её языковой модели для генерации ответа. Платформа автоматически учитывает изменения в базе данных. Это позволяет работать с актуальной информацией и повысить точность ответов.
Метрики контроля
Для RAG-платформы зафиксировали технические требования. Вот некоторые из них:
Дополнительной метрикой контроля определили обратную связь от операторов — им должно быть удобно пользоваться AI-инструментом.
После определения целевых показателей MLOps-команда начала разработку. RAG-платформу внедряли поэтапно: сначала запустили пилот на 100 операторов и постепенно увеличивали количество пользователей. Всего за 4 месяца мы вывели проект в production.


Вместе с командой Альфа-Банка мы реализовали классический RAG-пайплайн на модели Gemma 3.
Запрос оператора поступает в оркестратор и преобразуется в векторный формат. Затем система подбирает наиболее релевантные фрагменты текста и передаёт их в LLM. Модель суммаризирует информацию и генерирует ответ.

Для финансовой сферы критически важно, чтобы операторы отвечали по актуальным данным. Если клиент получит нерелевантную информацию, это может привести к финансовым потерям и репутационным рискам для банка.
Чтобы избежать ошибок, мы настроили автоматическое обновление векторного индекса: когда редакторы Альфа-Банка добавляют новые статьи или актуализируют текущие, эти изменения автоматически подтягиваются в систему.
Сегодня система обрабатывает 85 000 запросов в сутки при пиковой мощности до 200 000. Как и планировалось, RAG-платформа выдерживает нагрузку на двух видеокартах H100 и имеет запас по производительности.


Чтобы уложиться в SLA по времени ответа пять секунд и RPS восемь запросов в секунду, мы разработали методологию автоматического подбора параметров инференса модели: система сама ищет баланс между качеством и скоростью ответа.
Также мы настроили кеширование: платформа обрабатывает запрос один раз и сохраняет результат. Когда приходит аналогичное обращение, система сразу возвращает ответ. Это позволяет снизить нагрузку на GPU и повышает скорость отклика.
В результате мы превысили обе контрольные метрики.
В кешировании важно было учитывать уровни доступа операторов к статьям в базе знаний. Для этого настроили проверку:
Это позволяет возвращать корректный ответ для каждого пользователя с учётом уровня доступа, даже при одинаковых запросах.
Результаты
RAG-платформа ускоряет и упрощает работу 12 000 операторов контакт-центра Альфа-Банка:
AI-решение масштабировали на всех сотрудников Альфа-Банка — в среднем ежемесячно платформой пользуются 30 000 человек. В ближайших планах улучшение качества ответов, эксперименты с новыми LLM и реализация поиска не только по тексту статей, но и во вложенных файлах.

Это классный проект, который помогает тысячам пользователей. 93% операторов положительно оценивают опыт работы с платформой: системой удобно пользоваться, обрабатывать обращения клиентов стало проще и быстрее.
Алексей Фатеев
Лид проекта RAG-платформа в команде KTS
