Nova IA transforma rapidamente números de artigos científicos em dados úteis
|
Getting your Trinity Audio player ready...
|
Os números são a linguagem da ciência — mesmo assim, em artigos científicos, eles geralmente ficam escondidos no texto e são difíceis de analisar. Pesquisadores do Centro de Pesquisa Jülich desenvolveram um sistema de Inteligência Artificial (IA) que identifica automaticamente esses números, os categoriza e os converte em dados estruturados na ferramenta Quinex, que elimina a necessidade de trabalhos manuais demorados.
Seja nos campos da energia, clima ou pesquisa de materiais, os artigos científicos estão repletos de números ou, mais precisamente, de dados quantitativos: eficiências, temperaturas, custos, emissões. Esses dados costumam ser cruciais para melhorar modelos ou identificar tendências. Ao mesmo tempo, o número de publicações científicas cresce rapidamente. Hoje em dia, seria praticamente impossível avaliar manualmente todas as publicações relevantes para responder a muitas das questões científicas, pois o tempo e os recursos necessários seriam enormes.
A estrutura Quinex (traduzida do inglês como “Extração de Informação Quantitativa”), foi desenvolvida por pesquisadores de Jülich, baseia-se em modelos de linguagem e automatiza esse processo da seguinte forma: a IA identifica valores numéricos, os atribui às unidades apropriadas e reconhece o que foi medido, quando, onde e como. Assim, uma frase como “Níveis de eficiência de 63 a 71 por cento são assumidos para 2025” é transformada em um conjunto estruturado de dados contendo todas as informações contextuais relevantes, desde o ano e o método de medição até a fonte.

IA aberta e eficiente
Diferentemente de muitas soluções proprietárias de IA, a Quinex é totalmente baseada em modelos abertos de linguagem, relativamente pequenos e, portanto, eficientes. Tais modelos foram treinados especificamente para reconhecer e classificar informações quantitativas em textos científicos. Em comparação com outros sistemas semelhantes, a Quinex oferece resultados mais precisos, capta informações contextuais de forma mais refinada e também leva em conta características implícitas.
Apesar de seu tamanho compacto, a ferramenta atinge uma precisão de reconhecimento (F1) em torno de 98% para números e unidades associadas, e aproximadamente 87% e 82% para a classificação de propriedades quantificadas e entidades. Essas taxas altas de precisão foram alcançadas por meio de melhorias metodológicas e de conjuntos de dados de treinamento especialmente criados.
“Queríamos desenvolver uma ferramenta que fosse poderosa, mas também transparente e eficiente em termos de recursos”, explica o Dr. Jann Weinand, chefe do Departamento de Cenários Integrados do Sistema de Análise de Jülich. “A Quinex torna a inteligência artificial mais acessível para análise de dados na ciência”.
Teste prático bem-sucedido
Para testar como a ferramenta Quinex é aplicada na prática, o sistema foi usado em milhares de resumos científicos de diversas áreas. Ela extraiu com sucesso os dados sobre os custos de produção de eletricidade de várias tecnologias energéticas, sobre consumo máximo de oxigênio em humanos, sobre magnitudes e localizações de terremotos e sobre as lacunas de banda de materiais fotovoltaicos.
Os valores obtidos automaticamente corresponderam de perto aos respectivos dados de referência. Isso demonstra que a Quinex é adequada para analisar uma quantidade vasta da literatura acadêmica em uma ampla variedade de áreas de pesquisa e extrair tendências confiáveis a partir delas.
Novas perspectivas para a pesquisa
“Os modelos de linguagem abrem novas perspectivas para a ciência e ajudam a manter uma visão geral de campos inteiros de pesquisa científica”, afirma Jan Göpfert, autor principal do estudo. “Eles permitem buscas automatizadas na literatura, a criação estruturada e uniforme de bases de dados de pesquisa e análises de tendências que revelam desenvolvimentos na ciência e tecnologia em estágio inicial”.
“O nosso objetivo é aliviar os trabalhos rotineiros de pesquisadores”, diz o Dr. Patrick Kuckertz, chefe do Grupo de Gestão de Dados de Pesquisa. “A Quinex foi projetada para ajudá-los a terem insights mais rapidamente e a lidar com o volume crescente de dados na ciência”.
O estudo foi publicado na revista The Innovation.
Limitações e melhorias futuras
A Quinex não está totalmente livre de erros, mas a transparência faz parte do seu design. “O sistema reconhece números e unidades de forma muito confiável”, afirma Göpfert. “Como eles são extraídos diretamente do texto, não podem ser ‘alucinados’. No entanto, às vezes ocorrem interpretações equivocadas, por exemplo, quando referências importantes estão dispersas ao longo do texto”.
Assim, a Quinex continua sendo uma ferramenta que auxilia as pessoas, mas não as substitui. “Recomendamos usar a ferramenta onde ela possa informar e aliviar o trabalho dos pesquisadores, mas a responsabilidade pela interpretação dos resultados permanece com eles”, diz Göpfert. Cada número reconhecido pode ser rastreado até sua fonte e, sempre que possível, é destacado no texto original.
A equipe está trabalhando para desenvolver ainda mais a Quinex com conjuntos de dados e modelos específicos de domínio adicionais, tornando-a ainda mais eficiente e flexível para se adaptar a necessidades diferentes de pesquisa.
Colaboração aberta é bem-vinda
O Centro de Pesquisa Jülich está disponibilizando a Quinex como um projeto de código aberto. A iniciativa busca oferecer a pesquisadores de todo o mundo a oportunidade de testar, expandir e adaptar o sistema aos seus próprios campos — da pesquisa em energia à química e à biomedicina.
Quinex Open Source: https://go.fzj.de/quinex
Fonte: Centro de Pesquisa Jülich
Informação adicional: Jan Göpfert et al. Quinex: Quantitative information extraction from text using open and lightweight LLMs, The Innovation (2026). DOI: 10.1016/j.xinn.2026.101391
Artigo original (em inglês) publicado pelo Centro de Pesquisa Jülich na TechXplore.
