TX, 04/08/2025
Por Katharine Miller
Modelos de linguagem que imitam a fala humana estão sendo usados para testar hipóteses e realizar estudos-piloto de forma econômica, produzindo resultados iniciais promissores. No entanto, pesquisadores destacam que os dados humanos ainda são essenciais.
Ao melhorar nossa compreensão sobre o comportamento humano, a pesquisa em ciências sociais ajuda empresas a desenharem programas de marketing eficazes, garante que políticas públicas atendam às necessidades da população e apoia o desenvolvimento de estratégias adequadas para combater doenças e manter a segurança pública.
Essa pesquisa abrange áreas como economia, psicologia, sociologia e ciência política, utilizando abordagens variadas, como trabalho de campo, enquetes online, experimentos controlados aleatórios, grupos focais, observação, entre outros.
Mas toda pesquisa em ciências sociais é complicada por causa do seu objeto: as pessoas.
“Não estamos lidando com placas de Petri ou plantas que ficam paradas e nos permitem experimentar por longos períodos de tempo”, diz Jacy Anthis, pesquisador visitante no Instituto de IA Centrada no Humano de Stanford (HAI) e doutorando na Universidade de Chicago. “E como estudamos sujeitos humanos, essa pesquisa pode ser demorada, cara e difícil de replicar.”
Com os avanços na IA, no entanto, cientistas sociais agora podem simular dados humanos. Modelos de linguagem de grande escala (LLMs) que emulam a fala humana podem interpretar o papel de especialistas em ciências sociais ou de sujeitos humanos diversos para testar hipóteses de forma econômica, realizar estudos-piloto, estimar tamanhos amostrais ideais e aproveitar o poder estatístico que surge da combinação de sujeitos humanos e modelos de IA.
Ainda assim, há limitações em relação a como os LLMs substituem seres humanos, observa Anthis em um novo artigo publicado no repositório arXiv: eles frequentemente oferecem respostas menos variadas, tendenciosas ou bajuladoras, e não se adaptam bem a novos contextos.
Mesmo assim, Anthis e outros pesquisadores estão otimistas quanto ao uso de LLMs em pesquisas sociais, já que alguns métodos simples já produziram resultados promissores.
Se outros pesquisadores seguirem seu apelo, Anthis afirma que mais um ano de trabalho pode levar a avanços significativos. “À medida que a tecnologia e a sociedade evoluem rapidamente, precisamos de ferramentas das ciências sociais — como simulações — que acompanhem esse ritmo.”
Avaliando a IA como substituto do ser humano
Embora a IA tenha feito grandes avanços em benchmarks populares, sua capacidade de imitar seres humanos é um desenvolvimento mais recente. Para avaliar o quão bem ela prevê comportamentos humanos, Luke Hewitt, pesquisador sênior do Stanford PACS, junto com Robb Willer, Ashwini Ashokkumar e Isaias Ghezae, testou LLMs em relação a experimentos controlados aleatórios (RCTs) já realizados: os modelos conseguiriam replicar com sucesso os resultados de experimentos feitos com humanos?
RCTs típicos envolvem um “tratamento” — alguma informação ou ação que se espera influenciar atitudes ou comportamentos. Por exemplo, os participantes podem ser convidados a ler um texto, assistir a um vídeo curto ou participar de um jogo sobre um tema (como mudanças climáticas ou vacinas). Depois, perguntam-se suas opiniões e comparam-se as respostas com um grupo controle que não passou pelo tratamento. Houve mudança de opinião? Aumentou a probabilidade de mudarem seus comportamentos?
No projeto, Hewitt e seus colegas usaram o GPT-4 para simular como uma amostra representativa de americanos responderia a 476 tratamentos diferentes já estudados anteriormente. Descobriram que, em experimentos do tipo enquete online, as previsões dos LLMs foram tão precisas quanto as previsões feitas por especialistas humanos, com alta correlação (0,85) com os efeitos reais dos tratamentos.
Hewitt considera essa precisão impressionante. A equipe ficou especialmente animada ao observar o mesmo nível de precisão mesmo em experimentos publicados após o treinamento do GPT-4. “Muitos esperariam que o LLM fosse bem-sucedido apenas em experimentos incluídos em seus dados de treinamento e falhasse nos novos”, diz Hewitt. “Em vez disso, descobrimos que o modelo consegue prever com precisão até experimentos totalmente inéditos.”
Infelizmente, os modelos mais novos são mais difíceis de validar. Isso não apenas porque seus dados de treinamento incluem estudos mais recentes, mas também porque LLMs já estão fazendo buscas na web, acessando informações que não faziam parte do treinamento. Para avaliá-los, os pesquisadores talvez precisem criar um acervo de estudos inéditos que nunca foram publicados na internet.
IA tem mente estreita
Apesar de sua precisão ao replicar estudos, os LLMs enfrentam outros desafios importantes que os pesquisadores precisarão superar.
Um deles é o alinhamento distributivo: os LLMs têm grande dificuldade em reproduzir a variação das respostas humanas. Por exemplo, em jogos onde se pede que escolham um número, os LLMs tendem a selecionar um intervalo mais estreito (e estranhamente previsível) do que os humanos. “Eles podem distorcer e achatar muitos grupos sociais”, diz Nicole Meister, doutoranda em engenharia elétrica em Stanford.
Em um artigo recente, Meister e colegas avaliaram diferentes formas de solicitar e medir a distribuição das respostas de um LLM para várias perguntas. Por exemplo, um modelo pode ser convidado a escolher uma entre quatro alternativas para uma questão sobre moralidade do consumo de álcool.
Normalmente, o LLM dá apenas uma resposta, mas é possível examinar a distribuição de probabilidades logarítmicas internas — a avaliação do modelo sobre a probabilidade de cada alternativa antes de decidir. Porém, essa distribuição não se assemelha muito à humana, diz Meister. Abordagens mais eficazes envolvem pedir ao LLM que simule 30 pessoas respondendo ou que verbalize a distribuição provável.
Os resultados foram ainda melhores quando se forneceu ao modelo informações prévias sobre como um grupo costuma responder a uma pergunta relacionada, uma técnica chamada de few-shot steering (orientação com poucos exemplos). Por exemplo, ao perguntar sobre como democratas e republicanos veem a moralidade do álcool, o LLM respondeu de forma mais realista quando previamente informado sobre suas opiniões quanto à religião ou à direção sob efeito de álcool.
Esse método funciona melhor com perguntas baseadas em opinião do que com preferências pessoais, destaca Meister. “Se alguém acha que carros autônomos são ruins, é provável que também veja a tecnologia como algo ruim, e o modelo faz essa ligação. Mas gostar de livros de guerra não implica em não gostar de livros de mistério — e o modelo tem mais dificuldade com isso.”
Isso preocupa à medida que empresas começam a usar LLMs para prever preferências de consumo. “Talvez os LLMs não sejam a ferramenta ideal para esse fim”, afirma.
Outros desafios: Validação, viés, bajulação e mais
Como ocorre com outras tecnologias de IA, o uso de LLMs nas ciências sociais pode ser prejudicial se substituir experimentos humanos, ou for aplicado de forma sem validação adequada, alerta Hewitt. As pessoas precisam ter noção de quando confiar no modelo: o uso que estão fazendo dele é parecido com casos em que já foi validado? “Estamos avançando, mas ainda não atingimos esse nível de confiança na maioria dos casos.”
Também será importante, segundo Hewitt, quantificar melhor a incerteza das previsões dos modelos. “Sem essa quantificação, as pessoas podem confiar de menos em alguns casos e demais em outros.”
Para Anthis, os principais desafios ao usar LLMs na pesquisa social incluem:
- Viés: Modelos frequentemente representam certos grupos sociais de forma imprecisa, apoiando-se em estereótipos raciais, étnicos ou de gênero.
- Bajulação (sycophancy): Modelos criados para serem "assistentes" tendem a dar respostas que soam agradáveis, mesmo que não sejam corretas.
- Estranheza: Embora as respostas pareçam humanas superficialmente, são profundamente alienígenas. Um exemplo: o modelo pode afirmar que 3,11 é maior que 3,9 ou resolver um problema simples com um método absurdamente complexo.
- Generalização: Os LLMs não generalizam com precisão além dos dados disponíveis, então os cientistas sociais podem ter dificuldades em usá-los para estudar novas populações ou o comportamento de grandes grupos.
Esses desafios são solucionáveis, segundo Anthis. Já existem técnicas para amenizar viés e bajulação — como simulações baseadas em entrevistas, pedir que o modelo interprete um especialista ou ajustar o modelo para otimizar a simulação social. Já os problemas de estranheza e generalização são mais complexos e talvez exijam uma teoria geral sobre como os LLMs funcionam — algo que ainda não temos.
Melhor abordagem atual? Um método híbrido
Apesar dos desafios, os LLMs atuais ainda podem ser úteis para pesquisas em ciências sociais. David Broska, doutorando em sociologia em Stanford, desenvolveu uma metodologia para usar LLMs de forma responsável, combinando sujeitos humanos com previsões de LLMs em um desenho experimental misto.
“Agora temos dois tipos de dados”, explica. “As respostas humanas, que são muito informativas, mas caras, e as previsões dos LLMs, que são menos informativas, mas baratas.”
A ideia é começar com um estudo-piloto pequeno com humanos e fazer o mesmo experimento com um LLM para comparar os resultados. Essa abordagem, chamada de inferência orientada por predição, combina os dois conjuntos de dados de forma eficiente e evita que o LLM introduza viés.
“Queremos manter o que os sujeitos humanos nos dizem, aumentar nossa confiança no efeito do tratamento e, ao mesmo tempo, impedir que o LLM comprometa estatisticamente a credibilidade dos resultados”, afirma.
Esse piloto híbrido inicial também permite realizar uma análise de poder estatístico — uma estimativa concreta da proporção ideal entre humanos e LLMs necessária para obter um resultado estatisticamente significativo, diz Broska. Isso prepara os pesquisadores para o sucesso com um estudo híbrido, potencialmente mais barato.
De forma mais ampla, Hewitt já vê casos em que simulações com LLM são úteis. “Se eu estivesse desenhando agora um estudo para testar uma intervenção capaz de mudar atitudes sobre o clima após um evento ou política recente, ou para aumentar a confiança nas vacinas, eu com certeza simularia esse experimento primeiro com um LLM e usaria os resultados para apoiar minha intuição.”
A confiança no modelo é menos importante quando o LLM ajuda apenas a selecionar condições experimentais ou a formular perguntas de pesquisa, diz Hewitt. Os sujeitos humanos ainda são fundamentais.
“No fim das contas, se você está estudando o comportamento humano, seu experimento precisa se basear em dados humanos.”
Artigos recomendados: VR e Persona
Fonte:https://techxplore.com/news/2025-08-ai-simulate-human-subjects-aid.html
Nenhum comentário:
Postar um comentário