AI пайплайн обработки страховых документов
End-to-end система автоматической обработки страховых документов с NLP, сокращающая время обработки заявлений с 3-5 дней до <10 минут
Технологии
Проект для страховой компании среднего размера, которая тонула в ручной обработке документов по страховым случаям. Проблема замедления стара как мир – компания получала данные в хаотичном виде:
- Десятки Excel файлов от агентов с разными моделями данных
- PDF документы: полисы, медзаключения, акты осмотра
- Фотографии повреждений и сканы документов с телефонов
Штат из ~8 сотрудников тратил 3-5 дней на обработку одного сложного случая, им приходилось вручную сводить данные из разных источников, приводя их к единому формату, и только потом валидировать кейсы и начинать анализ. Естественным образом такие замедления влияли на скорость и качество работы над более простыми страховыми случаями.
Решение
Я разработал систему автоматической обработки документов, которая работает в три этапа:
Этап 1: Импорт и нормализация
Система автоматически определяет тип документа и выбирает правильный метод обработки. Excel и CSV файлы обрабатываются стандартным парсингом данных. Отсканированные PDF и фотографии сначала проходят через OCR для извлечения текста.
Этап 2: Очистка и структурирование
Микро-пайплайн с использованием Schema Guided Reasoning анализирует извлечённые данные и приводит их к единому формату: нормализует названия колонок, определяет типы данных, находит фактические или потенциальные связи между данными из разных источников, отражая уверенность в анализе, что удобно для последующего анализа специалистами компании.
Этап 3: Валидация и сохранение
Данные проверяются по внутреннему чеклисту компании, структурируются в типизированные модели и сохраняются в базу данных с полным аудит трейлом. Если валидация проваливается, мы возвращаемся с поправками на предыдущие этапы (feedback loop с порогом в повторениях.)
Cистема предоставляет понятный интерфейс и API для дальнейшего использования данных аналитиками.
Кейс интересен тем что большинство документов - это так или иначе структурированные данные в Excel. Для них хорошо используются быстрые и дешёвые методы обработки.
LLM подключается только там, где действительно нужны - для структурированного понимания схем данных и обработки сложных случаев, и извлечения данных там где нет возможности прибегнуть к прозрачным эвристическим методам – сканы или фотографии документов. К последнему не накладывались высокие требования к точности, потому что и с результатами работы пайплайна и с исходными документами все равно в итоге работали живые специалисты.
И тем не менее, пропускная способность компании повысилась благодаря снижению времени подготовки анализов с нескольких дней до <10 минут.
После отлаживания пайплайна точность анализов достигла более чем удовлетворительного уровня. Сотрудники наконец смогли в полную силу заняться аналитической работой и работой с клиентами – бесконечный пожар в компании закончился.