Estudo da BBC aponta erros em modelos de linguagem

E

Um estudo realizado pela BBC evidenciou problemas sérios de acurácia no ChatGPT da OpenAI, Gemini do Google, Copilot da Microsoft e Perplexity, mostrando como respostas fornecidas por tais sistemas podem apresentar falhas importantes, especialmente quando se trata de notícias.

O estudo teve um escopo bastante direto: testar a precisão e a confiabilidade de quatro grandes assistentes de IA, disponibilizando a eles acesso ao conteúdo do próprio site da BBC para responder a 100 perguntas sobre notícias. A proposta era verificar se as ferramentas conseguiam representar o conteúdo com fidelidade e sem distorções.

Os resultados foram preocupantes:

  • 51% das respostas apresentaram problemas significativos, como erros factuais ou de contexto.
  • 19% das respostas que citavam artigos da BBC reproduziram incorretamente números, datas ou declarações.
  • 13% das citações usadas foram alteradas em relação ao texto original ou simplesmente não existiam na fonte citada.

Esses números chamam a atenção não apenas pela frequência dos erros, mas também pela gravidade deles: ao citar indevidamente um veículo de credibilidade (como a BBC), as IA acabam dando uma aura de legitimidade a informações equivocadas. E, para o público que lê tais respostas, pode ser quase impossível detectar a manipulação ou a incorreção, pois a marca de um veículo respeitado sugere confiança imediata.

Exemplos de Erros e Seus Impactos

O relatório publicado pela BBC apresenta uma série de exemplos concretos:

  1. Citações distorcidas ou criadas
    Várias vezes, as ferramentas forneceram citações supostamente retiradas de artigos da BBC, mas que, na prática, não constavam do texto original.
  2. Erros factuais graves
    Em algumas respostas, datas importantes foram trocadas, como afirmar que um determinado acontecimento ocorreu em outro mês ou até mesmo em outro ano.
  3. Falta de contexto e opinião tratada como fato
    Muitas respostas foram avaliadas como tendenciosas ou com tom de editorialização, apresentando o que eram apenas opiniões (ou especulações) como se fossem dados factuais. Em alguns casos, as respostas ignoraram pontos de vista conflitantes ou omitiram detalhes cruciais, o que pode levar a interpretações deturpadas.

O Desafio da Curadoria de Dados

Esses resultados reforçam a importância de se trabalhar com bases de dados de qualidade e com mecanismos de seleção e curadoria robustos. Na Okai, resolvemos esse problema para compliance integrando técnicas de IA Generativa a sistemas que fazem curadoria de informações, assegurando que apenas fontes confiáveis e atualizadas sejam utilizadas pelos modelos.

Eu escrevi um artigo no ano passado explicando em mais detalhes as técnicas que utilizamos para lidar com esses problemas.

About the author

Bruno Rodrigues
By Bruno Rodrigues