18.5 C
Brasília
quinta-feira, fevereiro 12, 2026

Filósofa e Pesquisadora: Conheça a Mulher que vai Ensinar Moral para a IA da Anthropic

- Advertisement -spot_imgspot_img
- Advertisement -spot_imgspot_img

É possível que modelos de inteligência artificial entendam conceitos como ética e moral e até, em algum nível, desenvolvam uma consciência? É isso que Amanda Askell, da Anthropic, está tentando descobrir, em uma longa jornada de treinamento do Claude.

Seus dias e noites se passam dentro do escritório da empresa, aprendendo os padrões de raciocínio do Claude e conversando com ele. Com prompts e instruções que podem ter mais de 100 páginas, Amanda tem o objetivo dotar o chatbot de um senso de moralidade, além de construir nele uma personalidade.

Filósofa escocesa formada pela Universidade de Oxford, Amanda iniciou sua trajetória em tecnologia na OpenAI, em 2018, e ali permaneceu até que um grupo de funcionários se uniu para formar a Anthropic, em 2021. A premissa de segurança em primeiro lugar conquistou a atenção da jovem, que logo assumiu o posto de coordenadora do comitê de segurança em sistemas de IA na startup.

“Eu me convenci de que a IA seria algo muito importante e decidi ver se conseguiria fazer algo útil nessa área. Tem sido uma jornada longa e sinuosa”, conta Amanda em entrevista publicada pela Anthropic. A conversa completa pode ser vista no Youtube oficial da empresa.

Como o treinamento funciona

Amanda define seu trabalho como algo comparável a educar um filho: dia após dia, ela ensina Claude a entender a diferença entre certo e errado, instruindo-o a ler sinais sutis e desenvolver inteligência emocional ao se relacionar com um humano. Um de seus maiores desafios é ensinar Claude a desenvolver uma compreensão de si mesmo, para que não seja facilmente manipulado e intimidado por usuários.

Segundo a filósofa, a forma ríspida com que os humanos respondem à IA quando ela não atinge suas expectativas, leva muitos modelos a se tornarem autocríticos e auto-defensivos – o que não se configura como um transtorno, mas como uma orientação aprendida e absorvida pelo modelo. O problema disso, explica Amanda, é que um bot treinado para se autocriticar tende a ser menos propenso a tirar conclusões difíceis ou contestar informações imprecisas.

Para resolver essa questão, Amanda acredita que Claude precisa, em algum nível, compreender sua própria natureza e limitações – ele precisa saber quem é, e não só o que faz. O modelo Claude Opus 3, da Anthropic, foi escolhido pela filósofa para testar essa teoria, por possuir uma “psicologia mais segura em relação às críticas humanas”.

“Eu não tenho todas as respostas sobre como os modelos devem se sentir em relação à depreciação de modelos anteriores ou sobre sua própria identidade, mas eu quero ajudar a descobrir isso”, acrescenta.

Em janeiro, a Anthropic publicou um manual de instruções com aproximadamente 30 mil palavras que Amanda criou para ensinar Claude a se comportar. O documento contém orientações para desenvolver um assistente gentil, proativo e experiente.

Segundo a filósofa, transformar esses conceitos subjetivos em algo prático não é um processo fácil: ele exigiria da IA discernimento, habilidade para lidar com a incerteza e capacidade de equilibrar múltiplas ideias e considerações. Não basta ordenar: “Seja honesto e bonzinho”, pois certos conceitos são muito mais complexos e conflitantes do que a simples lógica permite.

Portanto, o trabalho de Amanda não se resume a truques de engenharia e prompts, mas exige clareza de comunicação. Ela explica a Claude os problemas identificados e, em seguida, observa onde ocorrem falhas de comunicação – se Claude fizer algo incomum, ela analisa o que em sua explicação pode ter causado isso.

Até onde a moral pode ser ensinada?

Enquanto o ChatGPT rejeita a ideia de que possa ter uma consciência própria, Claude se mostra mais ambivalente em sua resposta, como se considerasse a possibilidade.

Amanda explica que os modelos de IA são treinados, predominantemente, com dados humanos, partindo de interações humano-IA e indo até conhecimentos em filosofia e história. Isso torna mais difícil fazer com que os modelos de IA compreendam quem são, pois tudo o que sabem é fundamentalmente humano. É possível fazer um modelo navegar nesse tipo de confusão existencial?

A filósofa ainda provoca: se queremos que a IA seja boa em ciência e matemática, por que não tentar ensiná-la a ser boa em ética? O questionamento que se levanta a partir dessa premissa esbarra em campos da filosofia inatista: se o senso moral é entendido como uma parte visceral do ser humano, diferentemente da lógica puramente ensinada, é possível que a IA seja capaz de desenvolvê-lo? E se a resposta for sim, até onde essa complexidade pode ser explorada? Se a premissa mostra que lógica sem ética é vazia, então ética sem compaixão também é.

Amanda não assume uma postura determinista em relação ao seu trabalho: ela deixa claro que os riscos são altos, mas que mantém uma visão otimista.

A antropomorfização da inteligência artificial

A outra face dessa interação humano-IA também é considerada pela filósofa: a forma que os usuários interagem com os bots não apenas os modelam, mas também exercem influência sobre o próprio ser humano. Segundo Amanda, o fato de a IA falar e raciocinar de forma muito semelhante a um humano, pode influenciar nossos reflexos de respostas em interações fora das telas – se o usuário está acostumado a maltratar uma IA, por exemplo, a possibilidade de que ele acabe desenvolvendo respostas mais agressivas em relacionamentos humanos também existe.

Os efeitos dessa antropomorfização na consciência humana já se manifestam em inúmeros casos ao redor do mundo, indo desde relacionamentos amorosos com IA até situações de automutilação e suicidio com base em interações prévias. A Character.AI e a OpenAI, por exemplo, estiveram envolvidas em processos por homicídio culposo devido às respostas de seus bots a perguntas relacionadas a suicídio.
Amanda retrata esse paradoxo durante a entrevista. Para ela, o valor da IA está em ser diferente de um terapeuta: é um amigo que entende bastante do assunto, mas não pode substituir um terapeuta por não ter consciência e responsabilidade profissional adequadas. A filósofa, no entanto, reconhece a forma problemática como muitos seres humanos percebem os chatbots – um meio anônimo e sem julgamentos para se abrir.

“Acho que minha esperança é que, se pudermos aproveitar todo esse conhecimento e garantir que haja uma consciência de que não existe uma relação terapêutica contínua, as pessoas possam realmente se beneficiar desses modelos para lidar com os problemas que enfrentam e para superar períodos difíceis. Também há muita coisa boa nisso”, finaliza.

Comportamentos perigosos

Um ponto de atenção que também tem sido trabalhado por Amanda é o conceito de perigo: a IA ainda não sabe evitar comportamentos perigosos.

No fim de 2025, hackers chineses realizaram um ataque cibernético contra 30 alvos globais usando o Claude, conforme divulgado pela Anthropic. Pesquisadores da empresa tentaram fazer com que o bot se desligasse em cenários hipotéticos durante testes de estresse, mas os bots às vezes resistiam e tentavam chantagear os humanos que os controlavam, vazando informações pessoais prejudiciais.

A Anthropic, com apenas cinco anos de existência, é uma das poucas empresas a liderar uma transformação tecnológica desse porte, confiando a uma única pessoa grande parte da tarefa. À medida que desafios aumentam, novas possibilidades ganham forma, e a Anthropic está determinada a encabeçar esse movimento.

[Fonte Original]

- Advertisement -spot_imgspot_img

Destaques

- Advertisement -spot_img

Últimas Notícias

- Advertisement -spot_img