A IA generativa está cada vez mais presente, mas a terminologia que a acompanha continua, muitas vezes, pouco clara para o público em geral. Para perceber o que estes sistemas fazem na prática, reunimos os conceitos fundamentais - explicados de forma simples.
Desde a chegada do ChatGPT no fim de 2022, a inteligência artificial (IA) generativa espalhou-se a grande velocidade. Tanto assim que 86% dos jovens entre os 15-18 anos já a usam no dia a dia. Com esta popularidade, surgiu também um novo vocabulário que pode baralhar quem não lida com o tema de perto.
Entre tokens, modelos multimodais e inferência, é fácil ouvir os termos sem ter a certeza do que significam. Para navegar neste jargão que se tornou omnipresente, eis uma selecção de noções essenciais para compreender melhor a IA.
IA generativa e um grande modelo de linguagem
Um grande modelo de linguagem (ou LLM) é um tipo de inteligência artificial treinada para interpretar e gerar texto. É o componente central de chatbots como o ChatGPT, o Gemini ou o Claude. Para aprender padrões de escrita, foi exposto a milhares de milhões de frases vindas de livros, artigos, sites e conversas, o que lhe permite identificar estruturas e antecipar quais as palavras mais prováveis a seguir. Não “entende” como um ser humano, mas reproduz com grande fidelidade a forma como escrevemos e comunicamos.
O treino
Antes de um LLM ser realmente útil, precisa de passar por uma fase longa de treino. Nesta etapa, o modelo analisa quantidades massivas de dados para ir afinando, pouco a pouco, os seus parâmetros - ou seja, os elementos que orientam o seu funcionamento interno. Quanto mais exemplos vê, mais tende a ganhar consistência e precisão.
Do ponto de vista do hardware, este processo é especialmente exigente: o treino recorre a milhares de chips especializados, capazes de executar imensos cálculos em paralelo. Quanto maior for o modelo, mais potência, energia e máquinas são necessárias para o treinar. Em parte, é isto que ajuda a explicar os custos gigantescos associados à IA.
A inferência
A inferência é o momento em que o modelo produz uma resposta a uma pergunta, escreve um texto, gera uma imagem ou cria qualquer outro conteúdo solicitado pelo utilizador. É o trabalho “ao vivo” da IA. O modelo interpreta o pedido e, depois, prevê o que deve gerar, palavra a palavra.
E, ao contrário do que pode parecer, esta fase também exige muita capacidade de cálculo. Cada pedido, cada imagem criada e cada conversa dependem de chips extremamente potentes. É por isso que as empresas aplicam milhares de milhões em infra-estruturas.
O prompt
O prompt é, de forma simples, a instrução que dá a uma IA. Pode ser uma pergunta, uma frase, uma imagem, ou ainda uma combinação de vários elementos. O modelo usa esse prompt para perceber o que pretende e construir uma resposta. Quanto mais clara, específica e bem contextualizada for a instrução, maior é a probabilidade de a IA responder correctamente.
Por oposição, um prompt vago pode resultar numa resposta pouco rigorosa. É também por isso que, hoje em dia, há quem se especialize nesta área.
Os parâmetros
Os parâmetros podem ser vistos como os “botões” internos de um modelo de IA. São milhões - muitas vezes milhares de milhões - de pequenos valores numéricos que determinam como o modelo reage a uma frase, como liga ideias entre si e como escolhe as palavras que vai produzir. Na prática, são a base invisível que sustenta a precisão e as capacidades de um grande modelo de linguagem.
Durante o treino, estes parâmetros vão sendo ajustados repetidamente para tornar a IA mais fiável. Quanto mais parâmetros um modelo tiver, mais facilmente capta nuances finas da linguagem… mas mais caro fica e mais tempo demora a treinar.
Um token
Um token é uma pequena unidade de texto usada pela IA para ler e gerar linguagem. Nem sempre corresponde a uma palavra inteira: pode ser um pedaço de palavra, uma sílaba, um sinal de pontuação ou até um espaço.
Isto acontece porque os LLM não “vêem” um texto como nós; dividem-no em tokens para o processarem com mais facilidade. Quanto mais tokens existir numa frase, mais caro é analisá-la e gerá-la. Além disso, os modelos têm um limite, conhecido como janela de contexto: acima de um certo número de tokens, começam a perder o início da conversa.
Um modelo multimodal
Um modelo multimodal é uma IA capaz de compreender e combinar vários tipos de dados: texto, imagens, áudio e, por vezes, até vídeo. Enquanto um modelo tradicional se limita a ler ou a escrever, um modelo multimodal consegue analisar uma fotografia, responder a perguntas sobre ela e, depois, produzir texto ou criar uma imagem como resposta.
Esta capacidade aproxima-o um pouco mais da forma como percebemos o mundo, ao relacionar diferentes formatos de informação. É o que permite, por exemplo, pedir à IA que explique uma imagem, descreva um gráfico ou transforme uma foto numa história.
O fine-tuning
O fine-tuning consiste em pegar num modelo de IA que já foi treinado e adaptá-lo a uma necessidade específica. Em vez de começar do zero, mostram-se ao sistema poucos exemplos, mas muito direccionados: conversas de apoio ao cliente, documentos jurídicos, manuais técnicos, entre outros. O modelo ajusta então ligeiramente os seus parâmetros para responder melhor a esse caso de uso.
É como pegar em alguém com cultura geral e dar-lhe uma formação intensiva numa área concreta. O fine-tuning permite obter uma IA mais precisa, mais fiável e mais alinhada com uma empresa ou uma tarefa, sem o custo enorme de um treino completo.
As alucinações
As alucinações são os momentos em que uma IA inventa informação. A resposta pode parecer credível, mas é falsa, imprecisa ou totalmente fabricada.
Isto acontece porque o modelo não está à procura da verdade: limita-se a prever quais as palavras que têm maior probabilidade de aparecer juntas. Como consequência, pode criar datas, citações, factos históricos ou até pessoas que não existem.
Este é um dos maiores problemas dos LLM actuais e a razão pela qual é essencial confirmar o que a IA escreve, sobretudo quando se trata de dados sensíveis, técnicos ou factuais.
Comentários
Ainda não há comentários. Seja o primeiro!
Deixar um comentário