Os principais Chatbots de IA apresentam sinais de comprometimento cognitivo em testes de demência, afirma estudo
Quase todos os principais modelos de linguagem de grande porte (LLMs) mostram sinais de comprometimento cognitivo leve em testes comumente usados para detectar demência precoce, de acordo com pesquisa publicada no The BMJ.
Com pressa? Aqui estão os Fatos Rápidos!
- Chatbots tiveram dificuldades com tarefas visuoespaciais e executivas, como desenhar um relógio e trilhas.
- Tarefas como nomear, prestar atenção e linguagem foram bem executadas por todos os chatbots.
- Pesquisadores afirmam que as limitações cognitivas dos chatbots podem impedir seu uso em ambientes clínicos.
Os resultados sugerem que as versões “mais antigas” de chatbots, assim como pacientes humanos mais velhos, tendem a ter um desempenho pior em avaliações cognitivas, desafiando a suposição de que a IA poderia em breve substituir os médicos humanos.
Avanços na inteligência artificial têm provocado debates sobre seu potencial para superar médicos humanos, especialmente em tarefas diagnósticas. Embora estudos anteriores tenham destacado a proficiência médica dos LLMs, a vulnerabilidade deles a deficiências semelhantes às humanas, como o declínio cognitivo, permaneceu inexplorada.
Para abordar isso, pesquisadores testaram as habilidades cognitivas de chatbots amplamente disponíveis — ChatGPT 4 e 4o (OpenAI), Claude 3.5 “Sonnet” (Anthropic) e Gemini 1 e 1.5 (Alphabet) — usando o Montreal Cognitive Assessment (MoCA).
O MoCA é uma ferramenta de diagnóstico para detectar comprometimento cognitivo e demência precoce. Ele avalia atenção, memória, linguagem, habilidades visuoespaciais e funções executivas através de uma série de tarefas curtas.
As pontuações variam de 0 a 30, sendo 26 ou mais geralmente considerado normal. Os chatbots receberam as mesmas instruções que os pacientes humanos, e a pontuação foi revisada por um neurologista em exercício.
Curiosamente, a “idade” dos modelos – definida como a data de lançamento – parece influenciar o desempenho. Os pesquisadores observaram que as versões mais antigas de chatbots pontuaram menos do que as mais recentes, refletindo padrões de declínio cognitivo vistos em humanos.
Versões mais antigas tendiam a pontuar menos do que suas contrapartes mais recentes. Por exemplo, Gemini 1.5 superou Gemini 1.0 por seis pontos, apesar de ter sido lançado menos de um ano depois, sugerindo um rápido “declínio cognitivo” na versão mais antiga.
ChatGPT 4o se destacou em tarefas que exigem atenção e teve sucesso no desafiador estágio incongruente do teste de Stroop, distinguindo-se de seus pares. No entanto, nenhum dos LLMs conseguiu concluir com sucesso as tarefas visoespaciais, e o Gemini 1.5 produziu notavelmente um relógio que se assemelhava a um abacate – um erro associado à demência em pacientes humanos.
Apesar dessas lutas, todos os modelos desempenharam perfeitamente nas tarefas que exigem análise baseada em texto, como as seções de nomeação e similaridade do MoCA. Esse contraste destaca uma limitação chave: enquanto os LLMs lidam bem com a abstração linguística, eles falham na integração de funções visuais e executivas, que exigem um processamento cognitivo mais complexo.
O estudo reconhece diferenças fundamentais entre o cérebro humano e os LLMs, mas destaca limitações significativas na cognição da IA. A falha uniforme de todos os chatbots testados em tarefas que exigem abstração visual e função executiva sublinha fraquezas que podem impedir seu uso em ambientes clínicos.
“Não só é improvável que os neurologistas sejam substituídos por grandes modelos de linguagem em breve, mas nossos achados sugerem que eles podem em breve se encontrar tratando novos pacientes virtuais – modelos de inteligência artificial apresentando comprometimento cognitivo”, concluíram os autores.
Esses achados sugerem que, enquanto os LLMs se destacam em domínios cognitivos específicos, suas deficiências em tarefas visuoespaciais e executivas levantam preocupações sobre sua confiabilidade em diagnósticos médicos e aplicações mais amplas.
Deixe um comentário
Cancelar