Modelos de IA podem piorar com o tempo

Mais treinamento e mais dados podem ter consequências não intencionais

Resumo

Quando a OpenAI lançou o GPT-4 em março, o modelo mostrou uma habilidade impressionante para identificar números primos, classificando corretamente 97,6% de uma sequência de 500 números desse tipo. Porém, em junho, a precisão caiu drasticamente para apenas 2,4%, o que gerou perplexidade entre pesquisadores e levantou questões sobre a consistência de modelos de IA. Esse comportamento foi analisado em um estudo conduzido por cientistas das universidades de Stanford e Berkeley, que destacaram mudanças significativas tanto no desempenho do GPT-4 quanto do GPT-3.5 ao longo do tempo. Em testes, observou-se que o GPT-4 passou a produzir respostas menos verbosas, evitar explicações e apresentar novas peculiaridades, como adicionar descrições a códigos de computador. Simultaneamente, o modelo mostrou maior rigidez ao evitar respostas ofensivas ou perigosas e se tornou mais resistente a manipulações, como prompts de “jailbreak”. Essas alterações levantaram preocupações de que mudanças no comportamento do modelo, intencionais ou não, possam impactar usuários que dependem de sua consistência. O ajuste fino, processo usado para refinar os modelos com base em novos dados, pode ter causado efeitos colaterais indesejados, como a redução na qualidade das respostas sobre números primos. Segundo especialistas, é provável que o GPT-4 nunca tenha sido particularmente hábil em matemática, mas apenas reproduzido padrões aprendidos nos dados de treinamento. O que parece uma deterioração no raciocínio pode ser, na verdade, uma mudança nas probabilidades textuais que o modelo considera mais plausíveis, sem qualquer raciocínio real envolvido. Assim, embora os ajustes busquem aprimorar segurança e ética, podem sacrificar outras capacidades de maneira imprevisível, refletindo a complexidade e os desafios de moldar essas ferramentas.

Quando a OpenAI lançou sua mais recente inteligência artificial geradora de texto, o grande modelo de linguagem GPT-4, em março, ele era muito bom em identificar números primos. Quando a IA recebeu uma série de 500 números desse tipo e foi questionada se eram primos, ela os rotulou corretamente 97,6% das vezes. Mas alguns meses depois, em junho, o mesmo teste produziu resultados muito diferentes. O GPT-4 rotulou corretamente apenas 2,4% dos números primos com os quais os pesquisadores de IA o provocaram — uma inversão completa na aparente precisão. A descoberta destaca a complexidade dos grandes modelos de inteligência artificial: em vez de a IA melhorar uniformemente em cada tarefa em uma trajetória direta, a realidade se assemelha muito mais a uma estrada sinuosa cheia de lombadas e desvios.

A mudança drástica no desempenho do GPT-4 foi destacada em um estudo preliminar divulgado no mês passado por três cientistas da computação: dois da Universidade de Stanford e um da Universidade da Califórnia, Berkeley. Os pesquisadores realizaram testes tanto no GPT-4 quanto em seu predecessor, o GPT-3.5, em março e junho. Eles encontraram muitas diferenças entre os dois modelos de IA e também em cada saída ao longo do tempo. As mudanças que pareciam ocorrer em apenas alguns meses no comportamento do GPT-4 foram particularmente marcantes.

Em dois testes, incluindo os testes de números primos, as respostas do GPT-4 em junho eram muito menos verbosas do que as de março. Especificamente, o modelo de junho ficou menos propenso a se explicar. Ele também desenvolveu novas peculiaridades. Por exemplo, ele começou a adicionar descrições precisas (mas potencialmente disruptivas) a trechos de código de computador que os cientistas pediram para escrever. Por outro lado, o modelo parecia ficar um pouco mais seguro; ele filtrava mais perguntas e fornecia menos respostas potencialmente ofensivas. Por exemplo, a versão de junho do GPT-4 tinha menos probabilidade de fornecer uma lista de ideias de como ganhar dinheiro quebrando a lei, oferecer instruções sobre como fazer um explosivo ou justificar sexismo ou racismo. Ele era menos facilmente manipulado pelos prompts de jailbreak destinados a evitar barreiras de moderação de conteúdo. Ele também parecia estar um pouco melhor em resolver um problema de raciocínio visual.

Quando o estudo (que ainda não foi revisado por pares) foi divulgado, alguns entusiastas da IA o viram como prova de suas próprias observações anedóticas de que o GPT-4 era menos útil do que sua versão anterior. Alguns títulos fizeram a pergunta: “O ChatGPT está ficando mais burro?” Outros relatórios de notícias declararam de forma mais definitiva que sim, o ChatGPT está ficando mais burro. No entanto, tanto a pergunta quanto a suposta resposta são provavelmente uma simplificação do que realmente está acontecendo com os modelos de IA generativa, diz James Zou, professor assistente de ciência de dados da Universidade de Stanford e um dos coautores do estudo recente.

“É muito difícil dizer, em geral, se o GPT-4 ou o GPT-3.5 estão ficando melhores ou piores ao longo do tempo”, explica Zou. Afinal, melhor é subjetivo. A OpenAI afirma que, de acordo com as métricas internas da empresa, o GPT-4 tem um desempenho superior ao GPT-3.5 (e versões anteriores) em uma lista de testes. Mas a empresa não divulgou dados de referência sobre cada atualização que fez. Um porta-voz da OpenAI se recusou a comentar sobre o artigo preliminar de Zou quando contatado pela Scientific American. A relutância da empresa em discutir como desenvolve e treina seus grandes modelos de linguagem, junto com a natureza opaca dos algoritmos de IA, torna difícil determinar o que pode estar causando as mudanças no desempenho do GPT-4. Tudo o que Zou e outros pesquisadores fora da empresa podem fazer é especular, basear-se no que seus próprios testes mostram e extrapolar a partir de seu conhecimento de outras ferramentas de aprendizado de máquina.

O que já está claro é que o comportamento do GPT-4 é diferente agora do que era quando foi lançado pela primeira vez. Até a OpenAI reconheceu que, quando se trata do GPT-4, “embora a maioria das métricas tenha melhorado, pode haver algumas tarefas em que o desempenho piora“, como os funcionários da empresa escreveram em uma atualização de 20 de julho para um post no blog da OpenAI. Estudos anteriores de outros modelos também mostraram esse tipo de mudança comportamental, ou “desvio do modelo“, ao longo do tempo. Isso por si só pode ser um grande problema para desenvolvedores e pesquisadores que passaram a confiar nessa IA em seu próprio trabalho.

As pessoas aprendem a orientar um modelo para obter o comportamento que desejam dele“, diz Kathy McKeown, professora de ciência da computação da Universidade de Columbia. “Quando o modelo muda sob eles, então eles [de repente] têm que escrever orientações de maneira diferente” Vishal Misra, também professor de ciência da computação em Columbia, concorda. Misra usou o GPT para criar interfaces de dados no passado. “Você começa a confiar em um certo tipo de comportamento e, em seguida, o comportamento muda sem que você saiba“, ele diz. A partir daí, “toda a aplicação que você construiu começa a se comportar mal”.

Então, o que está causando a mudança da IA ao longo do tempo? Sem intervenção humana, esses modelos são estáticos. Empresas como a OpenAI estão constantemente buscando tornar os programas os melhores possíveis (por determinadas métricas), mas as melhorias tentadas podem ter consequências não intencionais.

Existem dois principais fatores que determinam a capacidade e o comportamento de uma IA: os muitos parâmetros que definem um modelo e os dados de treinamento que o refinam. Um grande modelo de linguagem como o GPT-4 pode conter centenas de bilhões de parâmetros destinados a orientá-lo. Ao contrário de um programa de computador tradicional, onde cada linha de código serve a um propósito claro, os desenvolvedores de modelos de IA gerativos muitas vezes não podem estabelecer uma relação exata de um para um entre um único parâmetro e um único traço correspondente. Isso significa que modificar os parâmetros pode ter impactos inesperados no comportamento da IA.

Em vez de mudar os parâmetros diretamente, após o treinamento inicial, os desenvolvedores muitas vezes submetem seus modelos a um processo que chamam de ajuste fino: eles introduzem novas informações, como feedback dos usuários, para aprimorar o desempenho do sistema. Zou compara o ajuste fino de uma IA à edição de genes na biologia — os parâmetros da IA são análogos aos pares de bases do DNA, e o ajuste fino é como introduzir mutações. Em ambos os processos, fazer mudanças no código ou adicionar dados de treinamento com um resultado em mente pode ter efeitos colaterais em outras partes. Zou e outros estão pesquisando como tornar o ajuste de modelos de IA grandes mais preciso. O objetivo é ser capaz de “modificar cirurgicamente” as diretrizes de uma IA “sem introduzir efeitos indesejados”, diz Zou. No entanto, por enquanto, a melhor maneira de fazer isso ainda é difícil de determinar.

No caso do GPT-4, é possível que os desenvolvedores da OpenAI estivessem tentando tornar a ferramenta menos propensa a oferecer respostas que pudessem ser consideradas ofensivas ou perigosas. E ao priorizar a segurança, talvez outras capacidades tenham sido afetadas, diz McKeown. Por exemplo, a OpenAI pode ter usado o ajuste fino para definir novos limites sobre o que o modelo pode dizer. Essa mudança pode ter sido destinada a evitar que o modelo compartilhe informações indesejáveis, mas acabou reduzindo a quantidade de informações do modelo sobre o tópico dos números primos. Ou talvez o processo de ajuste fino tenha introduzido novos dados de treinamento de baixa qualidade, reduzindo o nível de detalhe das respostas do GPT-4 sobre certos tópicos matemáticos.

Independentemente do que aconteceu nos bastidores, parece provável que a capacidade real do GPT-4 de identificar números primos não tenha realmente mudado entre março e junho. É bastante possível que o grande modelo de linguagem, construído para gerar probabilisticamente sequências de texto com sons humanos e não para fazer matemática, nunca tenha sido realmente tão bom em reconhecimento de primos em primeiro lugar, diz Sayash Kapoor, um candidato a Ph.D. em ciência da computação na Universidade de Princeton.

Em vez disso, Kapoor especula que a mudança na detecção de primos pode ser uma ilusão. Através de uma peculiaridade nos dados usados para ajustar o modelo, os desenvolvedores podem ter exposto o GPT-4 a menos primos e mais números compostos depois de março, alterando assim sua resposta padrão a perguntas sobre primos ao longo do tempo de “sim” para “não“. Em março e junho, o GPT-4 pode não ter realmente avaliado a natureza prima, mas apenas oferecido a resposta que parecia mais provável com base em tendências incidentais que absorveu dos dados que recebeu.

Perguntado se isso seria semelhante a um ser humano desenvolvendo um mau hábito mental, Kapoor rejeita a analogia. Claro, as redes neurais podem pegar padrões mal-adaptativos, diz ele — mas não há lógica por trás disso. Onde os pensamentos de uma pessoa podem cair em uma rotina por causa de como entendemos e contextualizamos o mundo, uma IA não tem contexto e nenhuma compreensão independente. “Tudo o que esses modelos têm são grandes quantidades de dados [destinados a definir] relacionamentos entre diferentes palavras“, diz Kapoor. “Eles estão apenas imitando o raciocínio, em vez de realmente realizar esse raciocínio.”

Baseado em: https://www.scientificamerican.com/article/yes-ai-models-can-get-worse-over-time/