Aplicação de técnicas de Reconhecimento e Classificação de Entidades Nomeadas para a extração de informações em acórdãos
Trabalhos acadêmicos
- Autor:
- Drach, Marcos
- Data:
- 30/03/20
- Áreas temáticas:
- Tecnologia da Informação Serviços Essenciais ao Estado
- Palavras-chave:
- Acórdão Machine learning Gestão do conhecimento Documentação Análise de dados
- Clientela:
- TCU
- Unidades técnicas:
- ISC
O Reconhecimento e Classificação de Entidades Nomeadas (Named Entity Recognition and Classification – NERC) é uma área do processamento de linguagem natural que cuida da identificação, extração e categorização de nomes próprios e termos de interesse em textos não estruturados. Surgido na década de 90 como uma tarefa de extração de informação, o NERC tem se beneficiado da constante evolução das técnicas de análise de dados e mineração textual. Dos primeiros sistemas baseados em regras ao estado-da-arte em algoritmos de aprendizado de máquina, o NERC tem sido utilizado em diversas aplicações, tais como pesquisa e classificação de conteúdo, tradução de idiomas, normalização de vocabulários, chatbots, sistemas de recomendação e pesquisa semântica, entre outros. No entanto, para que a técnica possa produzir melhores resultados, é necessário o treinamento do modelo de aprendizagem sobre o tipo de corpus desejado. Este trabalho teve por objetivo avaliar a eficácia da técnica aplicada sobre os acórdãos do Tribunal de Contas da União, utilizando-se modelo próprio treinado com uso da biblioteca spaCy. Os resultados demonstraram acurácia acima de 85% em 7 das 9 classes de entidades pesquisadas. Entre os benefícios, espera-se reduzir a carga manual atualmente requerida para o cadastramento das deliberações, bem como possibilitar a extração, a consolidação, o cruzamento e a análise não triviais dos dados de deliberação com vistas à produção de conhecimento institucional.