Um novo estudo da Google Research, publicado na Nature Human Behaviour, mostra que os embeddings internos de modelos de linguagem, neste caso o Whisper, se alinham de forma sistemática com a atividade cerebral humana durante conversas naturais.
Os pesquisadores analisaram gravações de eletrodos intracranianos enquanto participantes ouviam e falavam em situações de diálogo espontâneo. Os sinais neurais foram registrados em regiões responsáveis por audição, linguagem e planejamento motor. Em paralelo, foram extraídas representações internas (embeddings) do modelo Whisper para cada palavra ou trecho de fala, tanto do codificador de áudio quanto do decodificador de linguagem.
A análise revelou uma correspondência temporal. Durante a escuta, os embeddings de fala precediam a atividade em regiões auditivas, e os embeddings de linguagem antecipavam a ativação em áreas associadas à compreensão semântica. Já na produção da fala, o padrão se invertia. Primeiro surgia a sinalização em áreas de linguagem, depois nas motoras, e por fim nas auditivas, refletindo o monitoramento da própria fala.
Apesar de o Whisper não ter sido treinado com dados neurais, suas representações internas refletem a sequência funcional típica do cérebro humano ao processar linguagem. Isso sugere que os modelos de linguagem baseados em predição (como os LLMs) convergem para estruturas representacionais semelhantes às do cérebro, mesmo partindo de princípios e arquiteturas distintas.
Além disso, o estudo reforça a ideia de que o cérebro realiza previsões contínuas sobre a linguagem, um princípio também central em LLMs autoregressivos. A relação entre surpresa (erro de predição) e confiança na antecipação da próxima palavra foi observada tanto nos modelos quanto nos dados neurais.
Embora as arquiteturas biológica e artificial operem de maneiras distintas (por exemplo, os Transformers processam muitos tokens em paralelo, enquanto o cérebro trabalha em sequência temporal), os resultados abrem caminhos para explorar representações computacionais como ferramentas para entender o cérebro.