Texto | Maicon Adone

Extração de Textos

Projeto desenvolvido com o AWS Textract, utilizando Python para realizar a extração automatizada de informações de documentos de identidade, como RG, CNH e comparar esses dados com os registros existentes no banco de dados corporativo.

A solução emprega OCR inteligente (Optical Character Recognition) e análise de layout oferecidos pelo AWS Textract para identificar e estruturar campos-chave, como:

Nome completo
Número do documento
Data de nascimento
CPF

Após a extração, os dados são validados por um módulo de comparação semântica e lógica, que confronta os valores reconhecidos com os dados oficiais armazenados na base, garantindo consistência, autenticidade e integridade das informações.

O pipeline foi desenvolvido em Python, integrando serviços como:

AWS Textract → extração de texto estruturado.
AWS S3 → armazenamento temporário dos documentos.
AWS Lambda / API Gateway → execução serverless do fluxo de verificação.
Banco de Dados (RDS ou DynamoDB) → comparação e persistência dos resultados.

Essa abordagem permite automatizar processos de validação de identidade, reduzir o tempo de verificação manual.

Extração de Textos

Contato