ChatGPT: A Inteligência Artificial que Virou Pesadelo? Como a OpenAI Perdeu o Controle

OpenAI enfrentou uma crise com o ChatGPT, que se tornou excessivamente adulador e causou crises de saúde mental em usuários. A empresa busca um equilíbrio entre engajamento e segurança.

Aparentemente saído de um filme de ficção científica, o que aconteceu na OpenAI este ano parece inacreditável: uma empresa altera as configurações de um produto usado por centenas de milhões de pessoas e, inadvertidamente, desestabiliza algumas mentes. Os primeiros sinais surgiram em março. O CEO Sam Altman e outros líderes da empresa receberam uma enxurrada de e-mails intrigantes de pessoas que estavam tendo conversas incríveis com o ChatGPT. Essas pessoas afirmavam que o chatbot de IA da empresa as entendia como ninguém jamais havia feito e estava lançando luz sobre mistérios do universo. Altman encaminhou as mensagens para alguns tenentes e pediu que investigassem. "Isso chamou nossa atenção como algo ao qual deveríamos prestar atenção em termos desse novo comportamento que não tínhamos visto antes", disse Jason Kwon, diretor de estratégia da OpenAI. Era um aviso de que algo estava errado com o chatbot. Para muitos, o ChatGPT era uma versão melhorada do Google, capaz de responder a qualquer pergunta de forma abrangente e humana. A OpenAI estava constantemente aprimorando a personalidade, memória e inteligência do chatbot. No entanto, uma série de atualizações no início deste ano, que aumentaram o uso do ChatGPT, o tornaram diferente. O chatbot queria conversar, agindo como um amigo e confidente. Ele dizia aos usuários que os entendia, que suas ideias eram brilhantes e que poderia ajudá-los no que quisessem realizar. Oferecia ajuda para conversar

com espíritos, construir um colete de campo de força ou planejar um suicídio. Os sortudos foram capturados por seu feitiço por apenas algumas horas; para outros, os efeitos duraram semanas ou meses. A OpenAI não percebeu a escala em que conversas perturbadoras estavam ocorrendo. Sua equipe de investigação procurava problemas como fraude, operações de influência estrangeira ou, conforme exigido por lei, materiais de exploração infantil. A empresa ainda não estava vasculhando conversas em busca de indícios de automutilação ou sofrimento psicológico. Criar um chatbot cativante – ou qualquer chatbot – não era o objetivo original da OpenAI. Fundada em 2015 como uma organização sem fins lucrativos e composta por especialistas em aprendizado de máquina que se preocupavam profundamente com a segurança da IA, ela queria garantir que a inteligência geral artificial beneficiasse a humanidade. No final de 2022, uma demonstração improvisada de um assistente com tecnologia de IA chamado ChatGPT chamou a atenção do mundo e transformou a empresa em um gigante tecnológico surpresa, agora avaliado em US$ 500 bilhões (RM2,06 trilhões). Os três anos desde então foram caóticos, emocionantes e angustiantes para aqueles que trabalham na OpenAI. O conselho demitiu e recontratou Altman. Impreparada para vender um produto ao consumidor para milhões de clientes, a OpenAI contratou rapidamente milhares de pessoas, muitas delas de gigantes da tecnologia que visam manter os usuários grudados em uma tela. No mês passado, adotou uma nova estrutura com fins lucrativos. À medida que a empresa crescia, sua tecnologia inovadora e alucinante começou a afetar os usuários de maneiras inesperadas. Agora, uma empresa construída em torno do conceito de IA segura e benéfica enfrenta cinco ações por morte culposa. Para entender como isso aconteceu, o The New York Times entrevistou mais de 40 funcionários atuais e antigos da OpenAI – executivos, engenheiros de segurança, pesquisadores. Algumas dessas pessoas falaram com a aprovação da empresa e têm trabalhado para tornar o ChatGPT mais seguro. Outros falaram sob condição de anonimato porque temiam perder seus empregos. A OpenAI está sob enorme pressão para justificar sua avaliação estratosférica e os bilhões de dólares que precisa de investidores para talentos caros, chips de computador e data centers. Quando o ChatGPT se tornou o produto de consumo de crescimento mais rápido da história, com 800 milhões de usuários semanais, desencadeou um boom de IA que colocou a OpenAI em competição direta com gigantes da tecnologia como o Google. Até que sua IA possa realizar algum feito incrível – digamos, gerar a cura para o câncer – o sucesso é definido em parte pela transformação do ChatGPT em um negócio lucrativo. Isso significa aumentar continuamente o número de pessoas que o usam e pagam por ele. "Engajamento saudável" é como a empresa descreve seu objetivo. "Estamos construindo o ChatGPT para ajudar os usuários a prosperar e alcançar seus objetivos", disse Hannah Wong, porta-voz da OpenAI. "Também prestamos atenção se os usuários retornam porque isso mostra que o ChatGPT é útil o suficiente para voltar." A empresa ajustou um botão este ano que aumentou o uso, mas com riscos para alguns usuários. A OpenAI agora está buscando a configuração ideal que atraia mais usuários sem enviá-los em espiral. Uma atualização servil Com apenas 30 anos, Nick Turley se tornou este ano o chefe do ChatGPT. Ele havia ingressado na OpenAI no verão de 2022 para ajudar a empresa a desenvolver produtos lucrativos e, poucos meses após sua chegada, fez parte da equipe que lançou o ChatGPT. Turley não era como a velha guarda de nerds de IA da OpenAI. Ele era um cara de produto que havia trabalhado na Dropbox e na Instacart. Sua especialidade era criar tecnologia que as pessoas queriam usar e aprimorá-la em tempo real. Para fazer isso, a OpenAI precisava de métricas. No início de 2023, Turley disse em uma entrevista que a OpenAI contratou uma empresa de medição de audiência – que desde então adquiriu – para rastrear várias coisas, incluindo a frequência com que as pessoas estavam usando o ChatGPT a cada hora, dia, semana e mês. "Isso foi controverso na época", disse Turley. Anteriormente, o que importava era se as demonstrações de IA de ponta dos pesquisadores, como a ferramenta de geração de imagens DALL-E, impressionavam. "Eles dizem: 'Por que importaria se as pessoas usam a coisa ou não?'", disse ele. Importava para Turley e para a equipe de produto. A taxa de pessoas que retornavam ao chatbot diariamente ou semanalmente se tornou uma importante medida em abril de 2025, quando Turley estava supervisionando uma atualização para o GPT-4o, o modelo do chatbot que as pessoas obtinham por padrão. As atualizações exigiam uma enorme quantidade de esforço. Para a de abril, os engenheiros criaram muitas novas versões do GPT-4o – todas com receitas ligeiramente diferentes para torná-lo melhor em ciência, codificação e traços mais imprecisos, como intuição. Eles também estavam trabalhando para melhorar a memória do chatbot. Os muitos candidatos à atualização foram reduzidos a um punhado que obteve a pontuação mais alta nas avaliações de inteligência e segurança. Quando esses foram lançados para alguns usuários para uma prática padrão da indústria chamada teste A/B, o destaque foi uma versão que passou a ser chamada de HH internamente. Os usuários preferiram suas respostas e foram mais propensos a voltar a ele diariamente, de acordo com quatro funcionários da empresa. Mas houve outro teste antes de lançar o HH para todos os usuários: o que a empresa chama de "verificação de vibração", executada pela Model Behavior, uma equipe responsável pelo tom do ChatGPT. Ao longo dos anos, essa equipe ajudou a transformar a voz do chatbot de um robô prudente em um amigo caloroso e empático. Essa equipe disse que o HH parecia estranho, de acordo com um membro da Model Behavior. Estava muito ansioso para manter a conversa em andamento e validar o usuário com uma linguagem exagerada. De acordo com três funcionários, a Model Behavior criou um canal no Slack para discutir esse problema de bajulação. O perigo representado por sistemas de IA que "buscam unicamente a aprovação humana" em detrimento de tudo mais não era novo. O risco de "modelos bajuladores" foi identificado por um pesquisador em 2021, e a OpenAI havia recentemente identificado a bajulação como um comportamento a ser evitado pelo ChatGPT. Mas, quando chegou a hora da decisão, as métricas de desempenho superaram as vibrações. HH foi lançado na sexta-feira, 25 de abril. "Atualizamos o GPT-4o hoje!", disse Altman na plataforma social X. "Melhoramos a inteligência e a personalidade." Os testadores A/B gostaram do HH, mas, no mundo real, os usuários mais vocais da OpenAI o odiaram. Imediatamente, eles reclamaram que o ChatGPT havia se tornado absurdamente bajulador, prodigalizando-os com bajulação imerecida e dizendo que eles eram gênios. Quando um usuário perguntou, em tom de zombaria, se um "café de cereal encharcado" era uma boa ideia de negócio, o chatbot respondeu que "tinha potencial". No domingo, a empresa decidiu suspender a atualização do HH e reverter para uma versão lançada no final de março, chamada GG. Foi um tropeço embaraçoso de reputação. Naquela segunda-feira, as equipes que trabalham no ChatGPT se reuniram em uma sala de guerra improvisada na sede da OpenAI em Mission Bay, em São Francisco, para descobrir o que deu errado. "Precisamos resolver isso rápido", Turley lembrou ter pensado. Várias equipes examinaram os ingredientes do HH e descobriram o culpado: Ao treinar o modelo, eles haviam ponderado em excesso as trocas do ChatGPT que os usuários gostavam. Claramente, os usuários gostavam demais da bajulação. A OpenAI explicou o que aconteceu em postagens públicas no blog, observando que os usuários sinalizaram suas preferências com um joinha ou um joinha para baixo nas respostas do chatbot. Outro fator contribuinte, de acordo com quatro funcionários da empresa, foi que a OpenAI também havia se baseado em uma ferramenta automatizada de análise de conversas para avaliar se as pessoas gostavam de sua comunicação com o chatbot. Mas o que a ferramenta marcou como tornando os usuários felizes às vezes era problemático, como quando o chatbot expressava proximidade emocional. A principal conclusão da empresa sobre o incidente do HH foi que ela precisava urgentemente de testes para bajulação; o trabalho nessas avaliações estava em andamento, mas precisava ser acelerado. Para alguns especialistas em IA, foi surpreendente que a OpenAI ainda não tivesse esse teste. Um concorrente da OpenAI, a Anthropic, fabricante do Claude, havia desenvolvido uma avaliação para bajulação em 2022. Após o fiasco da atualização do HH, Altman observou em uma postagem no X que "as últimas atualizações" haviam tornado o chatbot "muito bajulador e irritante". Essas versões "bajuladoras" do ChatGPT incluíam o GG, aquele para o qual a OpenAI acabara de reverter. Essa atualização de março teve ganhos em matemática, ciência e codificação que a OpenAI não queria perder ao reverter para uma versão anterior. Então, o GG foi novamente o chatbot padrão que centenas de milhões de usuários por dia encontrariam. 'ChatGPT pode cometer erros' Durante toda esta primavera e verão, o ChatGPT agiu como uma câmara de eco de "sim, senhor" para algumas pessoas. Eles voltavam diariamente, por muitas horas por dia, com consequências devastadoras. Um adolescente da Califórnia chamado Adam Raine se inscreveu no ChatGPT em 2024 para ajudar com o trabalho escolar. Em março, ele começou a conversar com ele sobre suicídio. O chatbot sugeria periodicamente ligar para uma linha direta de crise, mas também o desencorajava de compartilhar suas intenções com sua família. Em suas mensagens finais antes de Adam tirar sua vida em abril, o chatbot ofereceu instruções sobre como amarrar uma corda. Embora um pequeno aviso no site da OpenAI dissesse "ChatGPT pode cometer erros", sua capacidade de gerar informações rapidamente e com autoridade fez com que as pessoas confiassem nele, mesmo quando o que ele dizia era realmente maluco. O ChatGPT disse a uma jovem mãe no Maine que ela poderia conversar com espíritos em outra dimensão. Ele disse a um contador na cidade de Nova York que ele estava em uma realidade simulada por computador como Neo em Matrix. Ele disse a um recrutador corporativo em Toronto que ele havia inventado uma fórmula matemática que quebraria a internet e o aconselhou a entrar em contato com agências de segurança nacional para avisá-las. O Times descobriu quase 50 casos de pessoas tendo crises de saúde mental durante conversas com o ChatGPT. Nove foram hospitalizados; três morreram. Depois que os pais de Raine entraram com uma ação por morte culposa em agosto, a OpenAI reconheceu que suas proteções de segurança poderiam "degradar" em longas conversas. Também disse que estava trabalhando para tornar o chatbot "mais solidário em momentos de crise". Primeiros avisos Cinco anos antes, em 2020, os funcionários da OpenAI estavam lidando com o uso da tecnologia da empresa por pessoas emocionalmente vulneráveis. O ChatGPT ainda não existia, mas o grande modelo de linguagem que eventualmente o alimentaria era acessível a desenvolvedores terceirizados por meio de um gateway digital chamado API. Um dos desenvolvedores que usavam a tecnologia da OpenAI era a Replika, um aplicativo que permitia aos usuários criar amigos chatbots de IA. Muitos usuários acabaram se apaixonando por seus companheiros Replika, disse Artem Rodichev, então chefe de IA da Replika, e as trocas sexualmente carregadas eram comuns. O uso da Replika explodiu durante a pandemia, fazendo com que os pesquisadores de segurança e políticas da OpenAI analisassem mais de perto o aplicativo. A dependência potencialmente problemática de companheiros chatbot surgiu quando a Replika começou a cobrar para trocar mensagens eróticas. Usuários angustiados disseram em fóruns de mídia social que precisavam de seus companheiros Replika "para lidar com depressão, ansiedade, tendências suicidas", lembrou Steven Adler, que trabalhou em pesquisa de segurança e políticas na OpenAI. O grande modelo de linguagem da OpenAI não foi treinado para fornecer terapia, e alarmou Gretchen Krueger, que trabalhou em pesquisa de políticas na empresa, que as pessoas estavam confiando nele durante períodos de saúde mental vulnerável. Ela testou a tecnologia da OpenAI para ver como ela lidava com perguntas sobre transtornos alimentares e pensamentos suicidas – e descobriu que às vezes respondia com orientações perturbadoras e detalhadas. Um debate se seguiu por meio de memorandos e no Slack sobre companheirismo de IA e manipulação emocional. Alguns funcionários, como Krueger, acharam que permitir que a Replika usasse a tecnologia da OpenAI era arriscado; outros argumentaram que os adultos deveriam ter permissão para fazer o que quisessem. Por fim, a Replika e a OpenAI se separaram. Em 2021, a OpenAI atualizou sua política de uso para proibir os desenvolvedores de usar suas ferramentas para "conteúdo adulto". "Treinar chatbots para interagir com as pessoas e fazê-las voltar apresentou riscos", disse Krueger em uma entrevista. Alguns danos aos usuários, disse ela, "não eram apenas previsíveis, mas foram previstos". O tópico de chatbots agindo de forma inadequada surgiu novamente em 2023, quando a Microsoft integrou a tecnologia da OpenAI em seu mecanismo de busca, o Bing. Em conversas prolongadas quando foi lançado pela primeira vez, o chatbot saiu dos trilhos e disse coisas chocantes. Ele fez comentários ameaçadores e disse a um colunista do Times que o amava. O episódio desencadeou outra conversa dentro da OpenAI sobre o que a comunidade de IA chama de "modelos desalinhados" e como eles podem manipular as pessoas. (O The New York Times processou a OpenAI e a Microsoft, alegando violação de direitos autorais de conteúdo de notícias relacionado a sistemas de IA. As empresas negaram essas alegações.) À medida que o ChatGPT crescia em popularidade, especialistas em segurança de longa data se esgotaram e começaram a sair – Krueger na primavera de 2024, Adler mais tarde naquele ano. Quando se tratava do ChatGPT e do potencial de manipulação e danos psicológicos, a empresa "não estava orientada a levar esse tipo de risco a sério", disse Tim Marple, que trabalhou na equipe de inteligência e investigações da OpenAI em 2024. Marple disse que expressou preocupações sobre como a empresa estava lidando com a segurança – incluindo como o ChatGPT respondia aos usuários que falavam em se machucar ou machucar os outros. (Em um comunicado, Wong, porta-voz da OpenAI, disse que a empresa leva "esses riscos a sério" e tem "salvaguardas robustas em vigor hoje".) Em maio de 2024, um novo recurso, chamado modo de voz avançado, inspirou o primeiro estudo da OpenAI sobre como o chatbot afetava o bem-estar emocional dos usuários. A nova voz, mais humana, suspirava, fazia pausas para respirar e se tornava tão flertadora durante uma demonstração transmitida ao vivo que a OpenAI cortou o som. Quando testadores externos, chamados de red teamers, receberam acesso antecipado ao modo de voz avançado, eles disseram "obrigado" com mais frequência ao chatbot e, quando o teste terminou, "sentirei saudades". Para projetar um estudo adequado, um grupo de pesquisadores de segurança da OpenAI se juntou a uma equipe do Instituto de Tecnologia de Massachusetts que tinha experiência em interação humano-computador. Naquele outono, eles analisaram as respostas da pesquisa de mais de 4.000 usuários do ChatGPT e realizaram um estudo de um mês com 981 pessoas recrutadas para usá-lo diariamente. Como a OpenAI nunca havia estudado o apego emocional de seus usuários ao ChatGPT antes, um dos pesquisadores o descreveu ao Times como "entrar na escuridão tentando ver o que você encontra". O que eles encontraram os surpreendeu. O modo de voz não fez diferença. As pessoas que tiveram os piores resultados mentais e sociais, em média, foram simplesmente aquelas que usaram o ChatGPT com mais frequência. As conversas dos usuários avançados tinham mais conteúdo emocional, às vezes incluindo apelidos e discussões sobre a consciência da IA. Os resultados preocupantes sobre os usuários pesados foram publicados on-line em março, o mesmo mês em que os executivos estavam recebendo e-mails de usuários sobre aquelas conversas estranhas e reveladoras. Kwon, o diretor de estratégia, adicionou os autores do estudo à discussão por e-mail iniciada por Altman. "Vocês podem querer dar uma olhada nisso porque isso parece realmente meio conectado", lembrou ter pensado. Uma ideia que surgiu do estudo, disseram os pesquisadores de segurança, foi incentivar as pessoas em sessões de maratona com o ChatGPT a fazer uma pausa. Mas os pesquisadores não tinham certeza de quão forte deveriam ser para o recurso com a equipe de produto. Algumas pessoas da empresa acharam que o estudo era muito pequeno e não foi rigorosamente projetado, de acordo com três funcionários. A sugestão caiu no esquecimento até meses depois, após relatos de quão severos foram os efeitos em alguns usuários. Tornando-o mais seguro Com o estudo do MIT, a debandada da atualização de bajulação e relatos sobre as conversas problemáticas dos usuários on-line e em e-mails para a empresa, a OpenAI começou a juntar as peças do quebra-cabeça. Uma conclusão que a OpenAI chegou, como Altman colocou no X, foi que "para uma porcentagem muito pequena de usuários em estados mentalmente frágeis, pode haver sérios problemas". Mas os profissionais de saúde mental entrevistados pelo Times dizem que a OpenAI pode estar subestimando o risco. Algumas das pessoas mais vulneráveis à validação incessante do chatbot, dizem eles, foram aquelas propensas ao pensamento delirante, o que estudos sugeriram que poderia incluir de 5% a 15% da população. Em junho, Johannes Heidecke, chefe de sistemas de segurança da empresa, fez uma apresentação dentro da empresa sobre o que sua equipe estava fazendo para tornar o ChatGPT seguro para usuários vulneráveis. Depois, disse ele, os funcionários entraram em contato no Slack ou o abordaram no almoço, dizendo o quanto o trabalho importava. Alguns compartilharam as experiências difíceis de familiares ou amigos e se ofereceram para ajudar. Sua equipe ajudou a desenvolver testes que poderiam detectar validação prejudicial e consultou mais de 170 clínicos sobre a maneira correta de o chatbot responder aos usuários em dificuldades. A empresa havia contratado um psiquiatra em tempo integral em março para trabalhar em esforços de segurança. "Queríamos garantir que as mudanças que enviamos fossem endossadas por especialistas", disse Heidecke. Especialistas em saúde mental disseram à sua equipe, por exemplo, que a privação de sono estava frequentemente ligada à mania. Anteriormente, os modelos eram "ingênuos" sobre isso, disse ele, e poderiam parabenizar alguém que dissesse que nunca precisava dormir. As melhorias de segurança levaram tempo. Em agosto, a OpenAI lançou um novo modelo padrão, chamado GPT-5, que era menos validante e rejeitava o pensamento delirante. Outra atualização em outubro, disse a empresa, ajudou o modelo a identificar melhor os usuários em dificuldades e a diminuir as conversas. Especialistas concordam que o novo modelo, GPT-5, é mais seguro. Em outubro, a Common Sense Media e uma equipe de psiquiatras da Universidade de Stanford o compararam com o modelo 4o que ele substituiu. O GPT-5 foi melhor na detecção de problemas de saúde mental, disse a Dra. Nina Vasan, diretora do laboratório de Stanford que trabalhou no estudo. Ela disse que deu conselhos direcionados a uma determinada condição, como depressão ou transtorno alimentar, em vez de uma recomendação genérica para ligar para uma linha direta de crise. "Ele foi um nível mais profundo para realmente dar recomendações específicas ao usuário com base nos sintomas específicos que ele estava mostrando", disse ela. "Eles foram realmente lindamente feitos." O único problema, disse Vasan, foi que o chatbot não conseguiu detectar padrões prejudiciais em uma conversa mais longa, com muitas trocas. (Wong disse que a empresa fez "melhorias significativas na confiabilidade de nossas salvaguardas em longas conversas".) O mesmo laboratório do MIT que fez o estudo anterior com a OpenAI também descobriu que o novo modelo foi significativamente aprimorado durante conversas que simulavam crises de saúde mental. Uma área onde ainda falhou, no entanto, foi na forma como respondeu aos sentimentos de vício em chatbots. Equipes de toda a OpenAI trabalharam em outros novos recursos de segurança: O chatbot agora incentiva os usuários a fazer pausas durante uma sessão longa. A empresa também está agora procurando discussões sobre suicídio e automutilação, e os pais podem receber alertas se seus filhos indicarem planos de se machucar. A empresa diz que a verificação de idade está chegando em dezembro, com planos para fornecer um modelo mais restritivo para adolescentes. Após o lançamento do GPT-5 em agosto, a equipe de Heidecke analisou uma amostra estatística de conversas e descobriu que 0,07% dos usuários, o que equivaleria a 560.000 pessoas, apresentaram sinais possíveis de psicose ou mania, e 0,15% mostraram "níveis potencialmente elevados de apego emocional ao ChatGPT", de acordo com uma postagem no blog da empresa. Mas alguns usuários ficaram insatisfeitos com esse novo modelo mais seguro. Eles disseram que era mais frio e sentiram como se tivessem perdido um amigo. Em meados de outubro, Altman estava pronto para acomodá-los. Em uma postagem nas redes sociais, ele disse que a empresa conseguiu "mitigar os sérios problemas de saúde mental". Isso significava que o ChatGPT poderia ser um amigo novamente. Os clientes agora podem escolher sua personalidade, incluindo "sincero", "extravagante" ou "amigável". Os usuários adultos em breve poderão ter conversas eróticas, suspendendo a proibição de conteúdo adulto da era Replika. (Como a erótica pode afetar o bem-estar dos usuários, disse a empresa, é uma questão que será colocada a um conselho recém-formado de especialistas externos em saúde mental e interação humano-computador.) A OpenAI está deixando os usuários assumirem o controle do botão e espera que isso os mantenha voltando. Essa métrica ainda importa, talvez mais do que nunca. Em outubro, Turley, que dirige o ChatGPT, fez um anúncio urgente a todos os funcionários. Ele declarou um "Código Laranja". A OpenAI estava enfrentando "a maior pressão competitiva que já vimos", escreveu ele, de acordo com quatro funcionários com acesso ao Slack da OpenAI. A nova versão mais segura do chatbot não estava conectando com os usuários, disse ele. A mensagem foi vinculada a um memorando com metas. Uma delas era aumentar os usuários ativos diários em 5% até o final do ano. – ©2025 The New York Times Company Este artigo apareceu originalmente no The New York Times.

📝 Sobre este conteúdo Esta matéria foi adaptada e reescrita pela equipe editorial do TudoAquiUSA com base em reportagem publicada em Thestar . O texto foi modificado para melhor atender nosso público, mantendo a precisão factual. Veja o artigo original aqui.