Detecção de Fraude no Seguro

Projeto desenvolvido na cloud Microsoft Azure, integrando Azure DevOps e Azure Machine Learning com o objetivo de criar um modelo preditivo para prevenção de fraudes em seguros veiculares, assegurando que todo o ciclo de vida dos modelos, desde o treinamento até o monitoramento em produção, seja gerenciado de forma automatizada e eficiente.

O modelo é projetado para detectar irregularidades no acionamento de sinistros, considerando aspectos como:

  1. Ingestão & qualidade de dados

    • Rotas: sinistros (FNOL), histórico de apólices, perfil do segurado, oficinas credenciadas, vistorias, telemetria e BO.

    • Testes de dados no CI (Great Expectations) e regras de PII (Purview + mascaramento).

  2. Feature Store / Engenharia

    • Tabelas de features com versionamento: frequência de sinistros, discrepâncias de orçamento, padrão de oficina, anomalias de horário/local, relacionamentos e embeddings (texto de relato/vistoria).

  3. Treino & seleção de modelos

    • Modelagem supervisionada (fraude=1, não-fraude=0): LightGBM/XGBoost/CatBoost; baseline com Azure AutoML (Classification).

    • Desbalanceamento: class weights, focal loss, SMOTE/SMOTETomek (avaliar leakage!), threshold moving.

    • Anomalia complementar: Isolation Forest, Autoencoders (Keras em AML), e/ou detecção gráfica.

  4. Avaliação

    • Temporal split (treina no passado, valida em janelas recentes).

    • Métricas primárias: AUCPR, Recall@k, F1, Cost-Sensitive Utility (matriz de custo: falso positivo = custo inspeção; falso negativo = prejuízo do sinistro).

    • Curva de ganhos / expected savings vs. limiar de decisão.

  5. Registro e aprovação

    • Registrar no Model Registry (versões, datasets, código, métricas, SHAP).

    • Gates manuais/automáticos no CD (só promove se AUCPR/KS/PSI OK).

  6. Deploy

    • Tempo real: Managed Online Endpoint (inference server + autoscaling) para triagem de sinistros no FNOL (p99 < 100–200ms).

    • Lote: Batch Endpoint ou AML Pipeline noturno para fila de auditoria.

  7. Monitoramento pós-deploy

    • Data/Concept Drift (PSI/JS Divergence), prediction drift, calibration drift.

    • Métricas de serviço (latência, throughput, taxa de erro) + A/B.

    • Fechamento de loop: feedback da auditoria/indenização rotulando casos e re-treino periódico (weekly/monthly).