Novo modelo multimodal TRIBE v2 combina três tipos de dados e reproduz a actividade neuronal humana com precisão sem precedentes para investigação in-silico

Dra. Mariana Filipa Sequeira • May 07, 2026 23:12

Novo modelo multimodal combina três tipos de dados e reproduz a actividade neuronal humana com uma precisão sem precedentes, abrindo caminho à investigação do cérebro in-silico

A Meta* apresentou o TRIBE v2 - um novo modelo que funde vídeo, áudio e texto para prever padrões de actividade no cérebro humano. A proposta aponta para uma forma diferente de estudar o funcionamento cerebral ao simular, de maneira controlada, como o cérebro reage a estímulos variados.

O TRIBE v2 (Tri-modal Brain Encoder) assenta numa arquitectura multimodal que agrega informação proveniente de três fontes: vídeo, áudio e texto. O treino recorreu a um conjunto de dados com mais de 1000 horas de registos de fMRI de 720 participantes e permite prever a actividade em 20 484 vértices da superfície cortical ("pontos" na superfície do córtex cerebral que o modelo acompanha para analisar a actividade) e em 8 802 vóxeis de estruturas subcorticais ("elementos volumétricos" dentro de estruturas mais profundas do cérebro, como o tálamo, os gânglios da base ou o hipocampo). Por outras palavras, o TRIBE v2 estima a actividade cerebral não só ao nível da superfície do córtex, mas também em profundidade, cobrindo a estrutura 3D da actividade neuronal. Isto coloca-o entre os modelos mais precisos para analisar actividade neuronal.

Arquitectura multimodal do TRIBE v2 e integração de vídeo, áudio e texto

O elemento distintivo do TRIBE v2 é a utilização de redes neuronais pré-treinadas para tratar cada modalidade. O vídeo é interpretado com o V-JEPA 2, o áudio é processado através do Wav2Vec-Bert e o texto é trabalhado com o Llama 3.2. Em seguida, estes sinais são combinados por um transformador com 1 mil milhões de parâmetros, responsável por modelar dependências temporais e a integração entre modalidades.

Esta abordagem também permite ao modelo manter a capacidade preditiva mesmo quando falta uma das modalidades, graças ao mecanismo de "modality dropout".

Reprodução de experiências clássicas e tarefas neurolinguísticas

O TRIBE v2 consegue replicar resultados de experiências clássicas. Por exemplo, identifica com exactidão regiões especializadas do córtex, como a FFA (reconhecimento de faces), a PPA (percepção de locais) e a VWFA (processamento de sinais escritos).

Além disso, reproduz com sucesso mapas de activação associados a tarefas neurolinguísticas complexas, incluindo a distinção entre fala e outros sons, bem como o processamento de frases mais elaboradas. O modelo evidencia ainda uma forte capacidade de generalização, ao prever a resposta do cérebro a estímulos novos sem necessidade de treino adicional.

Desempenho, leis de escalamento e limites para investigação do cérebro in-silico

Em termos quantitativos, o TRIBE v2 explica cerca de 54% da variação do sinal e, em regiões específicas, chega aos 80%, ultrapassando as capacidades de métodos tradicionais, como a fMRI. Um ponto particularmente relevante é que o modelo consegue prever a resposta média de um grupo a estímulos com mais precisão do que os registos de actividade de participantes individuais.

Isto abre novas possibilidades para a neurociência, ao permitir estudar o cérebro in-silico e testar hipóteses sem depender, em todos os casos, de experiências dispendiosas.

O modelo também reflecte o efeito das leis de escalamento: à medida que aumenta o volume de dados, melhora a precisão das previsões. Este comportamento torna o TRIBE v2 uma base promissora para evoluções futuras, sobretudo tendo em conta a sua capacidade de adaptação com uma quantidade mínima de dados.

Apesar dos avanços, existem limitações. O TRIBE v2 não contempla entradas sensoriais como o olfacto e o tacto e trata o cérebro como um "observador passivo", em vez de um "agente activo". Acresce que está condicionado pela resolução temporal da fMRI, o que dificulta a análise de processos neuronais rápidos. Ainda assim, a margem para escalamento e para integrar novos dados reforça o seu potencial como ferramenta para investigação futura.

* A empresa Meta (Facebook e Instagram) é reconhecida na Rússia como extremista e está proibida

Novo modelo multimodal TRIBE v2 combina três tipos de dados e reproduz a actividade neuronal humana com precisão sem precedentes para investigação in-silico

Novo modelo multimodal combina três tipos de dados e reproduz a actividade neuronal humana com uma precisão sem precedentes, abrindo caminho à investigação do cérebro in-silico

Arquitectura multimodal do TRIBE v2 e integração de vídeo, áudio e texto

Reprodução de experiências clássicas e tarefas neurolinguísticas

Desempenho, leis de escalamento e limites para investigação do cérebro in-silico

Comentários

Deixar um comentário