RAG для Альфа‑Банка: ускорили поиск данных в 20 раз

Система обрабатывает более 85 000 запросов в сутки, сокращает время ответа клиенту и нравится 93% сотрудников. Рассказываем, как за 4 месяца запустили RAG-решение для контакт-центра Альфа-Банка

Альфа-Банк — крупнейший частный банк России, входит в топ-10 системно значимых кредитных организаций. Обслуживает более 40 млн частных и 2 млн корпоративных клиентов.

В штате банка более 40 000 сотрудников. Контакт-центр обрабатывает десятки тысяч обращений в сутки: 12 000 операторов отвечают на вопросы клиентов — по продуктам, тарифам, условиям обслуживания.

Раньше сотрудники вручную искали данные в базе знаний и формировали ответ. Чтобы ускорить работу операторов и улучшить клиентский опыт, MLOps-команда Альфа-Банка и KTS разработали AI‑платформу на основе RAG. Как она работает и какие результаты получили, рассказываем в кейсе.

Результаты

x20

к скорости поиска

40 сек

на столько сократили время ответа

93%

положительных оценок

Задача: сократить время ответа клиенту

Команда Альфа-Банка проанализировала работу операторов и выдвинула гипотезу: внедрение AI-решения ускорит ответ клиенту на 30-40 секунд. В среднем обработка запроса занимала 5 минут: оператор вручную искал нужную статью в базе знаний, при необходимости заходил в первоисточники и формулировал ответ.

Решение

Выбрали RAG-технологию — это архитектурный подход, в котором система извлекает релевантную информацию из внешних источников знаний, а затем передаёт её языковой модели для генерации ответа. Платформа автоматически учитывает изменения в базе данных. Это позволяет работать с актуальной информацией и повысить точность ответов.

Метрики контроля

Для RAG-платформы зафиксировали технические требования. Вот некоторые из них:

развёртывание системы внутри контура банка;
запуск на двух GPU NVIDIA H100, чтобы уложиться в экономику проекта;
SLA по времени ответа: не более 5 секунд;
RPS (количество запросов в секунду): 7.

Дополнительной метрикой контроля определили обратную связь от операторов — им должно быть удобно пользоваться AI-инструментом.

После определения целевых показателей MLOps-команда начала разработку. RAG-платформу внедряли поэтапно: сначала запустили пилот на 100 операторов и постепенно увеличивали количество пользователей. Всего за 4 месяца мы вывели проект в production.

Как устроена RAG-платформа

Вместе с командой Альфа-Банка мы реализовали классический RAG-пайплайн на модели Gemma 3.

Запрос оператора поступает в оркестратор и преобразуется в векторный формат. Затем система подбирает наиболее релевантные фрагменты текста и передаёт их в LLM. Модель суммаризирует информацию и генерирует ответ.

Актуальные данные

Для финансовой сферы критически важно, чтобы операторы отвечали по актуальным данным. Если клиент получит нерелевантную информацию, это может привести к финансовым потерям и репутационным рискам для банка.

Чтобы избежать ошибок, мы настроили автоматическое обновление векторного индекса: когда редакторы Альфа-Банка добавляют новые статьи или актуализируют текущие, эти изменения автоматически подтягиваются в систему.

Сегодня система обрабатывает 85 000 запросов в сутки при пиковой мощности до 200 000. Как и планировалось, RAG-платформа выдерживает нагрузку на двух видеокартах H100 и имеет запас по производительности.

Обсудить проект

Ускорили время ответа модели в 2 раза

Чтобы уложиться в SLA по времени ответа пять секунд и RPS восемь запросов в секунду, мы разработали методологию автоматического подбора параметров инференса модели: система сама ищет баланс между качеством и скоростью ответа.

Также мы настроили кеширование: платформа обрабатывает запрос один раз и сохраняет результат. Когда приходит аналогичное обращение, система сразу возвращает ответ. Это позволяет снизить нагрузку на GPU и повышает скорость отклика.

В результате мы превысили обе контрольные метрики.

Проверка прав доступа

В кешировании важно было учитывать уровни доступа операторов к статьям в базе знаний. Для этого настроили проверку:

Система идентифицирует сотрудника.
Отбирает доступные ему статьи по ID.
Рассчитывает для них хеши.
Сохраняет результат в кеш.

Это позволяет возвращать корректный ответ для каждого пользователя с учётом уровня доступа, даже при одинаковых запросах.

Результаты

RAG-платформа ускоряет и упрощает работу 12 000 операторов контакт-центра Альфа-Банка:

среднее время обработки запроса уменьшилось на 40 секунд: с 5 минут до целевого показателя 4 минуты 20 секунд;
время на поиск информации сократилось в 20 раз: 3 секунды вместо 60.

AI-решение масштабировали на всех сотрудников Альфа-Банка — в среднем ежемесячно платформой пользуются 30 000 человек. В ближайших планах улучшение качества ответов, эксперименты с новыми LLM и реализация поиска не только по тексту статей, но и во вложенных файлах.

Это классный проект, который помогает тысячам пользователей. 93% операторов положительно оценивают опыт работы с платформой: системой удобно пользоваться, обрабатывать обращения клиентов стало проще и быстрее.
Алексей Фатеев
Лид проекта RAG-платформа в команде KTS

Давайте создавать
цифровые продукты
вместе

Давайте
создавать
цифровые
продукты
вместе

Я согласен с политикой обработки персональных данных

RAG для Альфа‑Банка: ускорили поиск данных в 20 раз

Результаты

Задача: сократить время ответа клиенту

Решение

Как устроена RAG-платформа

Актуальные данные

Ускорили время ответа модели в 2 раза

Проверка прав доступа

Алексей Фатеев

Давайте создаватьцифровые продуктывместе

Давайте создаватьцифровые продуктывместе

Давайте создавать
цифровые продукты
вместе

Давайте
создавать
цифровые
продукты
вместе