Mineração de dados com rastro: boas práticas para documentação de processos e sua aplicação em um projeto de classificação textual
Trabalhos acadêmicos
- Autor:
- Castro, Marcus
- Data:
- 15/08/19
- Áreas temáticas:
- Governança de TI Serviços Essenciais ao Estado Tecnologia da Informação
- Palavras-chave:
- Ciência de dados Mineração de dados Machine learning Gestão documental Documentação Análise de dados
- Clientela:
- TCU
- Unidades técnicas:
- ISC
Este trabalho propõe um conjunto de boas práticas de documentação de projetos de mineração de dados (DM), Rastro-DM, com foco não no modelo gerado, mas no processo por trás de sua construção, de forma a deixar um rastro das ações planejadas, dos treinamentos realizados, dos resultados obtidos e dos aprendizados concebidos. As práticas propostas são complementares às metodologias estruturantes de DM, tal como o CRISP-DM, que trazem todo o arcabouço metodológico e paradigmático para o processo de DM. Ilustra-se o seu uso em um projeto de classificação textual de documentos em PDF associados a danos ao Erário Público Federal Brasileiro denominado Cladop. Mostra-se, no contexto do Cladop, o uso do rastro documental para a geração semi-automática de relatórios e a sua integração com uma rotina de monitoramento automático proposta para classificadores em produção. A construção do kit Rastro-DM em um projeto é um pequeno passo que pode levar a um salto organizacional, a ser obtido com a partilha e o uso do rastro de forma corporativa.