12/12/2024 | News release | Distributed by Public on 12/12/2024 07:34
"Em uma linguagem mais simples, um sumário gerado nada mais é do que um resumo do texto original", destaca Leonardo Capellaro, mestrando do Programa de Pós-Graduação em Ciência da Computação (PPGCC) da UFSCar e responsável pelo estudo. "Em geral a sumarização automática é utilizada em processos que possuem uma grande quantidade de textos que levariam muito tempo para serem resumidos por um humano. Por exemplo, na geração de sumários para textos jurídicos, que muitas vezes ultrapassam a quantidade de centenas de páginas, pode ser gerada em poucos instantes a partir de um sumarizador automático. O mesmo ocorre para textos provenientes de redes sociais, que apesar de serem curtos individualmente, em grandes conjuntos se tornam muito extensos", explica.
Segundo Capellaro, o uso da inteligência artificial - mais especificamente os LLMs - Large Language Models (modelos de larga escala), como o Chat GPT, o LLama e o Mistral - trouxe um patamar de desempenho muito superior em tarefas de sumarização comparado a modelos tradicionais que existiam até então, como o Pegasus. Além disso, "há diversos trabalhos que realizaram estudos de desempenho destes modelos e, na grande maioria deles, os resultados obtidos foram que os sumários gerados por estes modelos se equiparam a sumários gerados por humanos."
"Os textos dos tweets são limitados a 280 caracteres, e geralmente são utilizados para compartilhar informações, opiniões, notícias e interagir com os outros usuários da rede em tempo real", define o pesquisador. "Nesse contexto, devido à velocidade e a volumetria de textos que são gerados no X, seria uma tarefa muito complicada captar todos os tweets falando sobre um determinado assunto, agrupá-los e pedir para um humano ler um por um para gerar um sumário geral dizendo sobre o que eles se tratam e quais opiniões estão sendo emitidas. Neste cenário, a sumarização automática é capaz de gerar um sumário de uma grande quantidade de tweets (neste estudo passando de 1 milhão de tweets) em um tempo hábil. Dessa forma, dado a natureza dinâmica das redes sociais, essa tarefa permite buscar de maneira rápida um resumo dos temas abordados pelos usuários".
A pesquisa
O estudo busca avaliar a qualidade de sumários (resumos) gerados usando diferentes modelos de linguagem de inteligência artificial a partir de uma série de tweets, que foram coletados no período de 8 a 12 de janeiro de 2023 - período conhecido pelos atos antidemocráticos ocorridos após as eleições presidenciais de 2022, caracterizados pelas invasões às sedes dos três poderes por opositores ao governo eleito.
Os tweets coletados na pesquisa foram agrupados por tópicos - os mais importantes foram selecionados com a ajuda de um cientista político da equipe do projeto e foram gerados sumários desses tweets utilizando a ferramenta de inteligência artificial LLMs.
De acordo com o mestrando da UFSCar, o contexto político dos tweets coletados são de alta polarização política e o fato de uma mesma notícia possuir opiniões muito distintas dependendo do grupo político do usuário que a emitiu. "A sumarização, nesse contexto, é capaz até de facilitar o reconhecimento de fake news", aponta o estudante, que integra o grupo de pesquisa Interfaces - Núcleo de Estudos Sociopolíticos dos Algoritmos e da Inteligência Artificial, que une alunos e professores dos departamentos de Computação e Ciências Sociais (DCSo), ambos da UFSCar. "Isso facilitou tanto a obtenção dos tweets quanto a eventuais consultas de cunho político".
O estudo, intitulado "Avaliação da eficácia de um modelo computacional de sumarização automática de tweets no contexto da política brasileira", tem orientação da professora Helena de Medeiros Caseli, do Departamento de Computação (DC) da UFSCar.
Participação
Para realizar o estudo, estão sendo convidados voluntários para responderem a um questionário online, que contém algumas questões definidas, com o propósito de avaliar a qualidade dos sumários. Interessados com mais de 18 anos podem preencher o formulário, disponível em https://bit.ly/3D9MTbT. O tempo estimado de resposta é de até 40 minutos.
Dúvidas podem ser esclarecidas pelos e-mails do pesquisador: [email protected] ou [email protected]. Projeto aprovado pelo Comitê de Ética em Pesquisa da UFSCar (CAAE: 82331024.7.0000.5504).