BLOG

Prevenção de Fraudes em Licitações: Ensaio Científico da Oracle e CGU Mostra Alta Precisão com Inteligência Artificial

Um ensaio científico conduzido pela Oracle e pela CGU reforça o potencial que o melhor aproveitamento de dados públicos já disponíveis podem exercer no trabalho preventivo

Uma ferramenta capaz de oferecer 97,9% de precisão na tarefa de prever quais fornecedores do governo estão em risco de serem sancionados por fraude ou violações contratuais. Esse é o resultado obtido pelo trabalho Projeto Helene, um ensaio científico baseado no uso de ferramentas de tecnologia e inteligência artificial desenvolvido em parceria pela empresa de tecnologia norte-americana Oracle e pela Controladoria-Geral da União (CGU).

No estudo para validar a ferramenta de forma prática, a equipe realizou um teste simulando um cenário real. O modelo foi “treinado” com todos os dados públicos disponíveis até setembro de 2024 e, com base nisso, atribuiu uma pontuação de risco para todas as empresas da base. Em seguida, a equipe analisou as 624 empresas que foram efetivamente sancionadas pela CGU no período seguinte, entre outubro de 2024 e fevereiro de 2025. O objetivo era verificar se o modelo havia classificado essas empresas como de alto risco antes de suas sanções se tornarem públicas. O modelo previu corretamente o risco elevado para 611 das 624 empresas que foram de fato sancionadas no período pesquisado.

Este é o resultado mais impactante do Projeto Helene, uma colaboração inovadora no âmbito do programa Tech Connect for Integrity, da OCDE (organização multilateral que atua na defesa do livre comércio pelo desenvolvimento), que visa conectar a experiência do setor privado para acelerar o uso de tecnologia no combate à corrupção por organizações públicas. A ideia surgiu após a apresentação da Oracle do seu modelo interno de análise de risco durante um evento da OCDE, o que despertou o interesse para uma aplicação similar com dados públicos brasileiros.

A iniciativa uniu a expertise em análise de risco da empresa de tecnologia, com a necessidade da CGU de modernizar suas atividades de fiscalização, utilizando exclusivamente dados públicos para criar uma ferramenta capaz de aperfeiçoar as avaliações e decisões do ministério. Oracle e CGU dedicaram cerca de duas mil horas pro bono para o processo de desenvolvimento da solução.

O principal objetivo do projeto era desenvolver um modelo de machine learning capaz de transformar dados administrativos e cadastrais das empresas em probabilidades de risco de sanção. O processo seguiu a metodologia CRISP-DM (sigla em inglês para Processo Padrão Interindústrias para Mineração de Dados), largamente reconhecido pela indústria de ciência de dados, envolveu todas as etapas, desde a compreensão do problema até a avaliação dos resultados. As equipes da Oracle e da CGU processaram cerca de 4 milhões de registros de diversas fontes de dados públicos, como o Portal da Transparência e cadastros nacionais de empresas e contratos.

Um dos desafios enfrentados pelas equipes foi a escolha por qual modelo de algoritmo de classificação utilizar. O modelo escolhido foi baseado em uma única “Árvore de Decisão”, de mais fácil interpretação, e que permite ao ser humano identificar de forma mais tranquila o fundamento de uma empresa ser classificada como de maior ou menor risco. O modelo de árvore de decisão funciona como um fluxograma inteligente que a IA usa para chegar a uma conclusão. Ela avalia os dados de entrada e, a cada “nó” de decisão, faz perguntas do tipo “se/então” até chegar a uma classificação de risco ou recomendação. Antes de chegar a essa decisão, os membros do projeto testaram diferentes modelos avançados, como o Random Forest, que combina um grande número de “árvores de decisão” para fazer previsões mais precisas e robustas do que uma única árvore; e o XGBoost, quer também combina árvores de decisão”, mas sequenciando-as de modo que os defeitos e fraquezas vão sendo superados à cada nova combinação.

Além da maior “interpretabilidade” — a capacidade de explicar como chega a uma conclusão, fator indispensável para a adoção por órgãos de controle — a escolha por usar uma única “árvore de decisão” se deu por sua alta performance, com mais de 90% de acurácia geral, mostrando a capacidade do modelo de classificar corretamente as empresas (sejam elas de risco ou não). O índice de 0.94 de precisão demonstrou uma baixa taxa de “falsos positivos”, ao mesmo tempo que o índice de recall de 0.833 indica que o modelo tem uma boa capacidade de identificar corretamente a maioria das empresas que são, de fato, sancionadas, evitando “deixar passar” muitos casos. O chamado F1-Score, superior a 0.80, reflete um bom equilíbrio entre a precisão e o recall, mostrando que o modelo é robusto e balanceado.

O ensaio científico conseguiu demonstrar a importância dos dados públicos, nem sempre bem trabalhados, e como a tecnologia pode ser usada para extrair o máximo de informações de qualidade deles. “Temos muitos dados de conhecimento público que se bem trabalhados, podem nos dar respostas muito interessantes, encontrando padrões que talvez não conhecêssemos. Essa é a grande descoberta do nosso projeto. Ele encontrou parâmetros que podem ser elementos chave para que o Estado possa melhorar suas auditorias internas e externas”, exemplifica o vice-presidente de Compliance da Oracle, Daniel Sibille (que também é idealizador da LEC).

Entre os resultados mais valiosos do ensaio foi a capacidade do modelo de identificar e “pesar” as características que mais influenciam na previsão de risco. Isso ajuda a entender quais fatores estão mais associados a futuras sanções. As variáveis que se mostraram mais preditivas para o modelo incluíram o tempo de atividade da empresa, a quantidade e frequência de seus contratos com o setor público, sua localização geográfica e a natureza jurídica. Outras características importantes incluem o valor total dos contratos, o enquadramento no regime tributário Simples Nacional e a atuação em setores como Comércio e Construção. Essa análise permite que a CGU não apenas identifique empresas de risco, mas também entenda por que elas são consideradas de risco, permitindo ações de fiscalização mais focadas e estratégicas.

O sucesso do projeto abre um leque de muitas possibilidades futuras. A CGU planeja aplicar a metodologia e o conhecimento adquirido em suas bases de dados internas, que não possuem as restrições dos dados abertos, para otimizar auditorias e investigações. No entanto, o maior potencial da ferramenta reside em sua capacidade de permitir ações preventivas e de mitigação de risco antes que as irregularidades ocorram.

Por ter sido desenvolvido com base em dados públicos, o modelo do Projeto Helene serve como um exemplo prático e escalável de como parcerias público-privadas podem fortalecer a integridade e a eficiência no setor público, podendo ser adaptado por outros governos que buscam soluções data-driven para o combate à corrupção. A forma como o modelo foi desenvolvido permite que ele seja utilizado em quaisquer esferas federativas da união, independentemente do seu porte. “Nós usamos uma base de dados e em cima dela, criaram-se parâmetros comuns. Se um ente da federação, um município pequeno por exemplo, tem os seus dados estruturados, você pode chegar nos mesmos resultados utilizando o mesmo modelo algoritimo”, aponta o VP da Oracle.


Conheça o Curso de Gestão Jurídica: Legal Operations, Inovação e Inteligência Artificial


Artigo publicado originalmente na edição 40 da Revista LEC.
As opiniões contidas nesta publicação são de responsabilidade exclusiva dos Autores, não representando necessariamente a opinião da LEC ou de seus sócios.
Imagem: Canva
Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors

ESTÁ COM DÚVIDA?

Fale com um especialista