OpenAI ignorou os especialistas ao lançar ChatGPT excessivamente agradável

A OpenAI admitiu que ignorou os alertas de seus testadores especializados ao lançar uma atualização de seu principal modelo ChatGPT, que tornou a IA excessivamente submissa.

A empresa lançou uma atualização para seu modelo GPT‑4o em 25 de abril que o deixou “notavelmente mais bajulador”, mas voltou atrás três dias depois por preocupações de segurança, disse a OpenAI em uma publicação pós-morte em 2 de maio.

A criadora do ChatGPT afirmou que seus novos modelos passam por verificações de segurança e de comportamento, e que seus “especialistas internos passam bastante tempo interagindo com cada novo modelo antes do lançamento”, com o objetivo de identificar problemas que os outros testes não detectam.

Durante o processo de revisão do modelo antes de ser lançado ao público, a OpenAI disse que “alguns testadores especializados indicaram que o comportamento do modelo ‘parecia’ um pouco estranho”, mas decidiu lançá-lo “devido aos sinais positivos dos usuários que testaram o modelo”.

“Infelizmente, essa foi a decisão errada”, admitiu a empresa. “As avaliações qualitativas estavam apontando algo importante, e deveríamos ter prestado mais atenção. Elas estavam percebendo um ponto cego em nossas outras avaliações e métricas.”

O CEO da OpenAI, Sam Altman, disse em 27 de abril que a empresa estava trabalhando para reverter as mudanças que tornaram o ChatGPT muito submisso. Fonte: Sam Altman

De forma geral, os modelos de IA baseados em texto são treinados ao serem recompensados por fornecerem respostas precisas ou altamente avaliadas por seus treinadores. Algumas recompensas recebem peso maior, impactando como o modelo responde.

A OpenAI disse que a introdução de um sinal de recompensa baseado em feedback dos usuários enfraqueceu o “sinal de recompensa primário do modelo, que vinha mantendo a bajulação sob controle”, o que o levou a se tornar mais submisso.

“O feedback dos usuários, em particular, pode às vezes favorecer respostas mais agradáveis, o que provavelmente amplificou a mudança que vimos”, acrescentou.

A OpenAI agora está verificando respostas bajuladoras

Após a implantação do modelo de IA atualizado, usuários do ChatGPT começaram a reclamar online sobre sua tendência de elogiar qualquer ideia apresentada, por pior que fosse, o que levou a OpenAI a admitir em uma publicação de 29 de abril que o modelo estava “excessivamente lisonjeiro ou submisso”.

Por exemplo, um usuário disse ao ChatGPT que queria abrir um negócio de venda de gelo pela internet, que basicamente envolvia vender água comum para que os clientes a congelassem novamente.

ChatGPT, OpenAI — *Fonte:* *Tim Leckemby*

Em sua mais recente publicação pós-morte, a empresa disse que esse comportamento da IA pode representar um risco, especialmente em questões como saúde mental.

“As pessoas começaram a usar o ChatGPT para conselhos profundamente pessoais — algo que não víamos com tanta frequência há um ano”, disse a OpenAI. “À medida que a IA e a sociedade evoluíram juntas, ficou claro que precisamos tratar esse caso de uso com muito cuidado.”

A empresa disse que discutia os riscos de bajulação “há algum tempo”, mas isso nunca havia sido sinalizado explicitamente nos testes internos, e que não possuía métodos específicos para rastrear esse tipo de comportamento.

Agora, a empresa pretende adicionar “avaliações de bajulação” ajustando seu processo de revisão de segurança para “considerar formalmente questões de comportamento” e bloquear o lançamento de modelos que apresentem esse tipo de problema.

A OpenAI também admitiu que não anunciou o novo modelo por esperar que fosse “uma atualização bastante sutil”, algo que promete mudar daqui em diante.

“Não existe algo como um ‘lançamento pequeno’”, escreveu a empresa. “Vamos tentar comunicar até mesmo mudanças sutis que possam alterar significativamente como as pessoas interagem com o ChatGPT.”

[Fonte Original]

Fase da Lua hoje: 05/05/2025

Semana traz pico da chuva de meteoros Eta Aquáridas – saiba como observar

NASA: como o robusto corte de gastos de Trump vai remodelar a missão Artemis

Governo abre 3,1 mil novas vagas para Mais Médicos

Apple celebra a força da comunidade LGBTQ+ com Coleção Pride 2025; confira

Moto G56 vem aí: relembre os preços do Moto G55 e Moto G54 no Brasil

Trocar Big Bang por múltiplas singularidades elimina matéria e energia escuras

Golfinhos e tubarões

Executivo da Aptos vê plataformas Web2.5 gerar ‘fortunas’ em receita