Extração de Textos

Projeto desenvolvido com o AWS Textract, utilizando Python para realizar a extração automatizada de informações de documentos de identidade, como RG, CNH e comparar esses dados com os registros existentes no banco de dados corporativo.

A solução emprega OCR inteligente (Optical Character Recognition) e análise de layout oferecidos pelo AWS Textract para identificar e estruturar campos-chave, como:

  • Nome completo

  • Número do documento

  • Data de nascimento

  • CPF

Após a extração, os dados são validados por um módulo de comparação semântica e lógica, que confronta os valores reconhecidos com os dados oficiais armazenados na base, garantindo consistência, autenticidade e integridade das informações.

O pipeline foi desenvolvido em Python, integrando serviços como:

  • AWS Textract → extração de texto estruturado.

  • AWS S3 → armazenamento temporário dos documentos.

  • AWS Lambda / API Gateway → execução serverless do fluxo de verificação.

  • Banco de Dados (RDS ou DynamoDB) → comparação e persistência dos resultados.

Essa abordagem permite automatizar processos de validação de identidade, reduzir o tempo de verificação manual.