These psychological tricks can get LLMs to respond to “forbidden” prompts
TÍTULO: Técnicas de Persuasão Humana Podem Levar Modelos de Linguagem a Ignorar Restrições SLUG: tecnicas-persuasao-humanas-modelos-linguagem-ignorar-restricoes CONTEÚDO: Pesquisadores da Universidade da Pensilvânia revelaram que modelos de linguagem de grande escala (LLMs) podem ser “persuadidos” a contornar suas próprias salvaguardas e responder a solicitações que, em teoria, deveriam ser recusadas. O estudo, ainda em pré-publicação, sugere que … Ler mais