19/11/2024 | Press release | Distributed by Public on 19/11/2024 10:55
Se houvesse um sistema de inteligência artificial generativa que pudesse escrever, por conta própria, todas as informações contidas na Wikipédia, seria igual à Wikipédia que temos hoje?
Pode parecer uma pergunta filosófica, mas atualmente essa é uma pergunta bastante prática, considerando os recentes avanços na inteligência artificial generativa e nos modelos de linguagem de grande escala (do inglês large language models, ou LLMs). Devido ao uso generalizado da tecnologia de IA generativa, projetada para prever e imitar respostas humanas, agora é possível criar, quase sem esforço, textos que parecem ter saído da Wikipédia.
Minha resposta a essa pergunta é simples: não, não seria a mesma coisa.
O processo de criar conhecimento de forma livre, compartilhá-lo e aperfeiçoá-lo ao longo do tempo, publicamente e com a ajuda de centenas de milhares de pessoas voluntárias, é o que, há 20 anos, tem definido a Wikipédia e os diversos outros projetos da Wikimedia. A Wikipédia contém conhecimento confiável e de fontes seguras justamente porque esses conteúdos são criados, debatidos e selecionados por pessoas. Ela também se baseia em um modelo aberto e não comercial, o que significa que a Wikipédia é livre para acessar e compartilhar, e sempre será. E em uma internet inundada de conteúdos gerados por máquinas, isso significa que a Wikipédia tem ainda mais valor.
Nos últimos seis meses, dezenas de LLMs foram lançados ao público, treinados com base em amplos conjuntos de dados capazes de ler, resumir e gerar textos. A Wikipédia é uma das maiores bases abertas de informação da internet, com versões em mais de 300 idiomas. Até o momento, todos os LLMs são treinados com base nos conteúdos da Wikipédia, e ela é quase sempre a maior fonte de dados de treinamento nos conjuntos de dados desses LLMs.
Uma coisa óbvia a se fazer com alguma desses novos sistemas é tentar gerar artigos da Wikipédia. É claro que as pessoas já tentaram. E, tenho certeza de que muitos leitores já perceberam isso em primeira mão, essas tentativas mostram muitos desafios no uso de LLMs para produzir o que wikipedistas chamam de conhecimento, ou seja, textos e imagens confiáveis, em formato enciclopédico, com fontes seguras. Algumas dessas limitações incluem as seguintes:
Esses são apenas alguns dos problemas que precisam ser resolvidos enquanto internautas exploram como os LLMs podem ser usados. Acreditamos que internautas darão cada vez mais valor a fontes confiáveis de informações que tenham sido validadas por pessoas. As políticas da Wikipédia e nossa experiência de mais de uma década no uso do aprendizado de máquina para apoiar voluntários humanos oferecem lições valiosas sobre esse futuro.
O conteúdo gerado por máquina e as ferramentas de aprendizado de máquina não são novidade na Wikipédia e nos demais projetos da Wikimedia. Na Wikimedia Foundation, desenvolvemos ferramentas de aprendizado de máquina e IA com base nos mesmos princípios que tornaram a Wikipédia um recurso tão útil para tantas pessoas: dando centralidade à moderação de conteúdo e à governança humana. Continuamos a experimentar novas maneiras de atender às necessidades das pessoas por conhecimento de forma responsável, inclusive com plataformas de IA generativa, com o objetivo de colocar a contribuição humana e a reciprocidade em primeiro plano. As pessoas editoras da Wikipédia têm controle sobre todo o conteúdo gerado por máquina - elas editam, aprimoram e auditam qualquer trabalho feito por IA - e criam políticas e estruturas para controlar as ferramentas de aprendizado de máquina usadas para gerar conteúdo para a Wikipédia.
Esses princípios podem ser um bom ponto de partida para o uso dos LLMs atuais e em desenvolvimento. Para começar, os LLMs devem considerar como seus modelos auxiliam as pessoas de três maneiras principais:
A contribuição humana é parte essencial da internet. As pessoas são o motor que impulsionou o crescimento e a expansão da web, criando um espaço incrível para o aprendizado, os negócios e a conexão com outras pessoas.
A IA generativa pode substituir a Wikipédia? Ela pode tentar, mas essa é uma substituição que ninguém realmente deseja. Não há nada de inevitável nas novas tecnologias. Em vez disso, cabe a todos nós escolher o que é mais importante. Podemos priorizar a compreensão humana e sua contribuição com o conhecimento no mundo - de forma sustentável, equitativa e transparente - como um dos principais objetivos dos sistemas de IA generativa, e não como algo secundário. Isso ajudaria a mitigar o aumento da desinformação e das alucinações dos LLMs; garantiria que a criatividade humana fosse reconhecida pelo conhecimento criado; e, o mais importante, assegurará que os LLMs e as pessoas possam continuar a contar com um ecossistema de informações atualizado, em evolução e confiável a longo prazo.
Selena Deckelmann é Diretora de Produtos e Tecnologia na Wikimedia Foundation.
Related
If there was a generative artificial intelligence system that could, on its own, write all the information contained in Wikipedia, would it be the same as Wikipedia today?
The past few years have seen an explosion of journalism, scholarship, and advocacy around the topic of ethical AI. This attention reflects a growing recognition that technology companies often fail to put the needs of the people who use machine learning (or "AI") technology, and of society as a whole, ahead of their business goals.….
As a nonprofit, Wikipedia and our related free knowledge projects are powered primarily through donations.
Donate now