Saltar para o conteúdo

Metais tóxicos nos chips de IA: o que revela o Nvidia A100 para o treino do GPT-4

Homem a analisar uma placa eletrónica numa sala de servidores com equipamento e documentos técnicos na secretária.

Treinar um modelo de IA de grande dimensão é, por natureza, um processo com um enorme consumo de energia. Os centros de dados operam com necessidades elétricas à escala dos gigawatts, e as empresas de IA já divulgam relatórios de carbono. No entanto, enquanto a energia é quantificada e permanece no debate, os metais presentes nos chips de IA têm passado, em grande medida, despercebidos.

Um novo estudo desmontou um chip, analisou-o elemento a elemento e chegou a um valor que o setor, na maioria dos casos, tem preferido não apurar.

Metais em chips de IA

Para perceber o que existe, de facto, dentro do hardware usado em IA, uma equipa da Universidade de Bona desmontou um Nvidia A100 - o chip que impulsionou a fase inicial de crescimento dos chatbots de IA - e examinou-o num laboratório de química.

Sophia Falk, investigadora do Sustainable AI Lab de Bona e autora principal do estudo, trabalhou com outros investigadores para inventariar todos os elementos presentes no dispositivo. O levantamento identificou 32.

Em termos de massa, cerca de 90% do chip é composto por metais pesados. O cobre, por si só, representa aproximadamente 1,4 quilogramas por unidade (cerca de 3 libras), sendo acompanhado, no “top 5”, por ferro, estanho, silício e níquel. Ouro, prata, platina e paládio aparecem apenas em quantidades residuais.

Uma mistura tóxica

Entre os 32 elementos catalogados pela equipa, há um conjunto significativo classificado como perigoso: arsénio, mercúrio, chumbo, cádmio, crómio, zinco, níquel, antimónio, cobalto e berílio.

Considerando a massa total, cerca de 93% de um único A100 é constituído por elementos com toxicidade documentada. Enquanto permanecem selados no interior do equipamento, estes materiais não representam risco para um técnico que instale um deles numa prateleira de servidores.

O problema não está no chip enquanto permanece no servidor. Está no solo de onde esses metais foram extraídos e no destino final do hardware, quando se transforma em lixo eletrónico. Um artigo separado do mesmo grupo descreve o ciclo completo, do início ao fim, “do berço à sepultura”.

Chips, metais e GPT-4

Quantos chips são necessários para uma única execução de treino? A resposta depende, essencialmente, de dois fatores: a intensidade com que os chips são utilizados e a duração até falharem.

No que a equipa descreve como a linha de base mais plausível - 35% de utilização e uma vida útil de dois anos - treinar uma ronda de GPT-4 consome o equivalente a cerca de 2,515 chips A100.

Se a vida útil for estendida para três anos, esse valor desce para aproximadamente 1,676. No sentido oposto - baixa utilização e ciclos de vida curtos - uma única sessão de treino pode exigir até 8,800 GPUs.

Em qualquer dos cenários, trata-se de milhares de dispositivos para um único modelo. A equipa estima, para um treino do GPT-4, cerca de 3,6 toneladas métricas de material extraído (aprox. 4 toneladas).

Retornos decrescentes na IA

O número mais impressionante apresentado no artigo não se refere a um único modelo, mas sim ao salto entre dois. A passagem da OpenAI de GPT-3.5 para GPT-4 exigiu, segundo os autores, cerca de 31 vezes mais recursos de GPU - um aumento superior a 3,000% em poder de computação.

Os ganhos de desempenho não foram uniformes. No caso de um teste exigente de matemática, o GPT-4 superou o seu antecessor em 61%, e em programação a melhoria foi de 39%. Já no raciocínio de senso comum, a subida ficou-se por apenas 14 percent.

“Architectural innovations and training methodologies may offer more effective performance improvements than simply scaling raw resources,” escreveram Falk e os coautores. O artigo defende que maior dimensão não é sinónimo de maior inteligência.

Onde recaem os custos

Ao nível do chip, os números contam uma história; ao nível geográfico, contam outra. Os metais dentro de um A100 provêm de minas e refinarias muito distantes dos centros de dados onde os chips são postos a trabalhar.

Nos nove modelos analisados pela equipa, o cenário considerado mais plausível totaliza cerca de 6,4 toneladas métricas de material extraído (aprox. 7 toneladas), quase tudo classificado como perigoso. No pior cenário, o valor aproxima-se de 20 toneladas métricas (aprox. 22 toneladas).

A maior parte deste impacto ambiental não se concentra junto dos centros de dados que utilizam os chips. Em geral, recai nas zonas de mineração, frequentemente em regiões com fiscalização ambiental mais fraca do que as cidades que compram capacidade de computação.

A alavanca da maior vida útil

Segundo os autores, há dois fatores que poderiam alterar estes valores de forma relevante: aumentar a utilização dos chips enquanto estão ao serviço e prolongar o tempo durante o qual permanecem em operação. Os efeitos acumulam-se.

Se a utilização subir de 20 para 60%, o número de GPUs necessárias para uma determinada tarefa de treino cai cerca de dois terços. Alargar a vida do hardware de um para três anos produz uma redução semelhante.

Ao combinar as duas medidas - operar um A100 com 60% de utilização durante cinco anos, em vez de um ano a 20% - o número de chips necessários para treinar o GPT-4 desce de 8,800 para 587. Trata-se de uma redução de 93%.

Uma análise independente projeta que, até 2030, as cargas de trabalho de IA representarão quase 70% da procura total dos centros de dados, o que aumenta a relevância destas melhorias caso não cheguem a concretizar-se.

O que isto altera

A principal contribuição do estudo é ligar os pontos. Já se sabia que as GPUs contêm metais pesados e também era conhecida a enorme procura de chips associada ao treino de IA. O que faltava era unir estas duas realidades e quantificar o custo material de treinar um modelo específico.

Passa agora a existir uma linha de base para o GPT-4: alguns milhares de chips e várias toneladas de material extraído por execução de treino, sendo a maior parte tóxica. Decisores políticos, programadores de IA e fabricantes de chips ganham, assim, um ponto de partida concreto.

Energia e água deixam de ser a totalidade da pegada do treino de um modelo de IA de grande dimensão. Os metais - muitos deles tóxicos - devem entrar na mesma contabilidade.

O grupo de Falk apela a que os laboratórios de IA divulguem as configurações de treino como parte do reporte padrão de sustentabilidade, para que a pegada do próximo modelo não tenha de ser reconstruída por terceiros a partir de fichas técnicas divulgadas informalmente.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário