RAG для Альфа‑Банка: ускорили поиск данных в 20 раз

Система обрабатывает более 85 000 запросов в сутки, сокращает время ответа клиенту и нравится 93% сотрудников. Рассказываем, как за 4 месяца запустили RAG-решение для контакт-центра Альфа-Банка

обложка

Альфа-Банк — крупнейший частный банк России, входит в топ-10 системно значимых кредитных организаций. Обслуживает более 40 млн частных и 2 млн корпоративных клиентов.

В штате банка более 40 000 сотрудников. Контакт-центр обрабатывает десятки тысяч обращений в сутки: 12 000 операторов отвечают на вопросы клиентов — по продуктам, тарифам, условиям обслуживания.

Раньше сотрудники вручную искали данные в базе знаний и формировали ответ. Чтобы ускорить работу операторов и улучшить клиентский опыт, MLOps-команда Альфа-Банка и KTS разработали AI‑платформу на основе RAG. Как она работает и какие результаты получили, рассказываем в кейсе.

Результаты

x20

к скорости поиска

40 сек

на столько сократили время ответа

93%

положительных оценок

схема работы

Задача: сократить время ответа клиенту

Команда Альфа-Банка проанализировала работу операторов и выдвинула гипотезу: внедрение AI-решения ускорит ответ клиенту на 30-40 секунд. В среднем обработка запроса занимала 5 минут: оператор вручную искал нужную статью в базе знаний, при необходимости заходил в первоисточники и формулировал ответ.

Брендовый зеленый кот с катаной

Решение

Выбрали RAG-технологию — это архитектурный подход, в котором система извлекает релевантную информацию из внешних источников знаний, а затем передаёт её языковой модели для генерации ответа. Платформа автоматически учитывает изменения в базе данных. Это позволяет работать с актуальной информацией и повысить точность ответов.

Метрики контроля

Для RAG-платформы зафиксировали технические требования. Вот некоторые из них:

  • развёртывание системы внутри контура банка;
  • запуск на двух GPU NVIDIA H100, чтобы уложиться в экономику проекта;
  • SLA по времени ответа: не более 5 секунд;
  • RPS (количество запросов в секунду): 7.

Дополнительной метрикой контроля определили обратную связь от операторов — им должно быть удобно пользоваться AI-инструментом.

После определения целевых показателей MLOps-команда начала разработку. RAG-платформу внедряли поэтапно: сначала запустили пилот на 100 операторов и постепенно увеличивали количество пользователей. Всего за 4 месяца мы вывели проект в production.

Брендовый зеленый кот
RAG-паплайн

Как устроена RAG-платформа

Вместе с командой Альфа-Банка мы реализовали классический RAG-пайплайн на модели Gemma 3.

Запрос оператора поступает в оркестратор и преобразуется в векторный формат. Затем система подбирает наиболее релевантные фрагменты текста и передаёт их в LLM. Модель суммаризирует информацию и генерирует ответ.


векторизация источников

Актуальные данные

Для финансовой сферы критически важно, чтобы операторы отвечали по актуальным данным. Если клиент получит нерелевантную информацию, это может привести к финансовым потерям и репутационным рискам для банка.

Чтобы избежать ошибок, мы настроили автоматическое обновление векторного индекса: когда редакторы Альфа-Банка добавляют новые статьи или актуализируют текущие, эти изменения автоматически подтягиваются в систему.

Сегодня система обрабатывает 85 000 запросов в сутки при пиковой мощности до 200 000. Как и планировалось, RAG-платформа выдерживает нагрузку на двух видеокартах H100 и имеет запас по производительности.

SLA
Брендовый кот

Ускорили время ответа модели в 2 раза

Чтобы уложиться в SLA по времени ответа пять секунд и RPS восемь запросов в секунду, мы разработали методологию автоматического подбора параметров инференса модели: система сама ищет баланс между качеством и скоростью ответа.

Также мы настроили кеширование: платформа обрабатывает запрос один раз и сохраняет результат. Когда приходит аналогичное обращение, система сразу возвращает ответ. Это позволяет снизить нагрузку на GPU и повышает скорость отклика.

В результате мы превысили обе контрольные метрики.


Проверка прав доступа

В кешировании важно было учитывать уровни доступа операторов к статьям в базе знаний. Для этого настроили проверку:

  1. Система идентифицирует сотрудника.
  2. Отбирает доступные ему статьи по ID.
  3. Рассчитывает для них хеши.
  4. Сохраняет результат в кеш.

Это позволяет возвращать корректный ответ для каждого пользователя с учётом уровня доступа, даже при одинаковых запросах.


Результаты

RAG-платформа ускоряет и упрощает работу 12 000 операторов контакт-центра Альфа-Банка:

  • среднее время обработки запроса уменьшилось на 40 секунд: с 5 минут до целевого показателя 4 минуты 20 секунд;
  • время на поиск информации сократилось в 20 раз: 3 секунды вместо 60.

AI-решение масштабировали на всех сотрудников Альфа-Банка — в среднем ежемесячно платформой пользуются 30 000 человек. В ближайших планах улучшение качества ответов, эксперименты с новыми LLM и реализация поиска не только по тексту статей, но и во вложенных файлах.

Брендовый зеленый кот

Это классный проект, который помогает тысячам пользователей. 93% операторов положительно оценивают опыт работы с платформой: системой удобно пользоваться, обрабатывать обращения клиентов стало проще и быстрее.

Алексей Фатеев

Алексей Фатеев

Лид проекта RAG-платформа в команде KTS

Давайте создавать
цифровые продукты
вместе

Давайте
создавать
цифровые
продукты
вместе

InterviewsCat