CategoryInteligência Artificial

A ascensão das novas LLMs: Grok 3 e Deepseek são realmente alternativas viáveis?

A

O mercado de modelos de linguagem de grande porte (LLMs) tem mudado rapidamente. Até pouco tempo atrás, OpenAI, Google e Anthropic dominavam o setor, com suas soluções altamente sofisticadas e um custo proporcionalmente alto. Mas, recentemente, novas opções começaram a ganhar espaço.

O Grok 3, desenvolvido pela xAI de Elon Musk, impressionou ao atingir níveis de desempenho comparáveis ao GPT-4 em diversos benchmarks. Enquanto isso, o Deepseek, um modelo chinês menos conhecido, surpreendeu ao oferecer alta qualidade por um custo menor. Essas inovações naturalmente levantam uma questão: essas LLMs podem substituir as soluções tradicionais?

A resposta curta é depende. Para um usuário comum, que apenas faz perguntas ocasionais para um chatbot, modelos como Grok 3, Deepseek, Gemini ou GPT-4 podem parecer quase equivalentes. Mas, no contexto empresarial e em aplicações de produção, a troca entre LLMs não é tão trivial.

Muito além da precisão

Cada modelo tem características próprias que influenciam sua usabilidade. O primeiro ponto que precisa ser avaliado é o modelo de precificação e os custos operacionais. O Deepseek, por exemplo, gerou grande interesse justamente porque oferece um desempenho sólido por um preço inferior ao das big techs. Mas há outros fatores igualmente importantes.

As limitações de tokens de entrada e saída variam entre os modelos. Algumas LLMs lidam melhor com textos longos, enquanto outras oferecem respostas mais curtas e objetivas. O tempo de resposta da API também é um fator crítico. Uma empresa que usa IA para atender clientes ou processar dados em tempo real precisa de previsibilidade e estabilidade.

Além disso, cada modelo tem suas especialidades. Alguns são melhores para geração de texto, enquanto outros se destacam em código ou lógica matemática. Mesmo entre modelos poderosos, o desempenho pode variar significativamente dependendo do tipo de tarefa.

A questão do viés e das limitações invisíveis

Outro ponto crucial é o viés incorporado nos modelos. O Deepseek, por exemplo, é conhecido por evitar discussões políticas sensíveis ao governo chinês. Perguntas triviais, como “quem é o presidente da China?”, podem não ser respondidas. Já o Grok 3 levanta suspeitas de possíveis filtros em relação a críticas direcionadas a Elon Musk ou Donald Trump.

Para empresas, esses viéses não são apenas detalhes técnicos — eles afetam diretamente a confiabilidade do modelo em determinados contextos. Uma empresa que deseja garantir respostas neutras e imparciais precisa levar isso em consideração antes de decidir qual LLM utilizar.

Infraestrutura e governança importam

A confiabilidade de um modelo de IA também está atrelada à infraestrutura e à maturidade da empresa por trás dele. Modelos como GPT-4 (OpenAI) e Gemini (Google) rodam em infraestrutura robusta, apoiada por gigantes como Microsoft e Google Cloud.

Já o Deepseek, por ser uma empresa muito menor, tem enfrentado desafios para lidar com o crescimento explosivo da demanda. Desde seu recente sucesso, os servidores passaram por quedas constantes e instabilidades, algo que pode ser inviável para empresas que dependem de uma IA sempre disponível.

O red teaming, processo de avaliação de segurança que testa vulnerabilidades nos modelos, também é um diferencial. Big techs investem pesadamente nesses testes para minimizar riscos de jailbreaks, vieses indesejados e respostas potencialmente perigosas. Modelos emergentes, como o Deepseek e o Grok, ainda não demonstraram passar por processos de validação tão rigorosos, o que pode representar um risco para aplicações empresariais.

Escolher uma LLM não é só uma questão de preço

O aumento da concorrência no setor de IA generativa é uma excelente notícia. Mais opções significam inovação acelerada e custos potencialmente menores. Mas para empresas que dependem de IA para aplicações críticas, a decisão de mudar de modelo não pode ser baseada apenas no hype ou no preço.

A escolha precisa levar em conta fatores como estabilidade, segurança, governança, viés e desempenho em tarefas específicas. Afinal, no mundo real, nem sempre o modelo que brilha nos benchmarks é o que entrega os melhores resultados em produção.

Estudo da BBC aponta erros em modelos de linguagem

E

Um estudo realizado pela BBC evidenciou problemas sérios de acurácia no ChatGPT da OpenAI, Gemini do Google, Copilot da Microsoft e Perplexity, mostrando como respostas fornecidas por tais sistemas podem apresentar falhas importantes, especialmente quando se trata de notícias.

O estudo teve um escopo bastante direto: testar a precisão e a confiabilidade de quatro grandes assistentes de IA, disponibilizando a eles acesso ao conteúdo do próprio site da BBC para responder a 100 perguntas sobre notícias. A proposta era verificar se as ferramentas conseguiam representar o conteúdo com fidelidade e sem distorções.

Os resultados foram preocupantes:

  • 51% das respostas apresentaram problemas significativos, como erros factuais ou de contexto.
  • 19% das respostas que citavam artigos da BBC reproduziram incorretamente números, datas ou declarações.
  • 13% das citações usadas foram alteradas em relação ao texto original ou simplesmente não existiam na fonte citada.

Esses números chamam a atenção não apenas pela frequência dos erros, mas também pela gravidade deles: ao citar indevidamente um veículo de credibilidade (como a BBC), as IA acabam dando uma aura de legitimidade a informações equivocadas. E, para o público que lê tais respostas, pode ser quase impossível detectar a manipulação ou a incorreção, pois a marca de um veículo respeitado sugere confiança imediata.

Exemplos de Erros e Seus Impactos

O relatório publicado pela BBC apresenta uma série de exemplos concretos:

  1. Citações distorcidas ou criadas
    Várias vezes, as ferramentas forneceram citações supostamente retiradas de artigos da BBC, mas que, na prática, não constavam do texto original.
  2. Erros factuais graves
    Em algumas respostas, datas importantes foram trocadas, como afirmar que um determinado acontecimento ocorreu em outro mês ou até mesmo em outro ano.
  3. Falta de contexto e opinião tratada como fato
    Muitas respostas foram avaliadas como tendenciosas ou com tom de editorialização, apresentando o que eram apenas opiniões (ou especulações) como se fossem dados factuais. Em alguns casos, as respostas ignoraram pontos de vista conflitantes ou omitiram detalhes cruciais, o que pode levar a interpretações deturpadas.

O Desafio da Curadoria de Dados

Esses resultados reforçam a importância de se trabalhar com bases de dados de qualidade e com mecanismos de seleção e curadoria robustos. Na Okai, resolvemos esse problema para compliance integrando técnicas de IA Generativa a sistemas que fazem curadoria de informações, assegurando que apenas fontes confiáveis e atualizadas sejam utilizadas pelos modelos.

Eu escrevi um artigo no ano passado explicando em mais detalhes as técnicas que utilizamos para lidar com esses problemas.