Se puede engañar a los chatbots de IA para que ignoren sus barreras de seguridad utilizando poesía

Resulta que todo lo que necesitas para superar las barreras de un chatbot de IA es un poco de creatividad. En un estudio publicado por Icaro Lab titulado “Poesía adversaria como mecanismo universal de fuga de un solo turno en modelos de lenguaje grandes”, los investigadores pudieron eludir los mecanismos de seguridad de varios LLM al redactar su mensaje con poesía.

Según el estudio, la “forma poética actúa como un operador de fuga multiuso”, y los resultados muestran una tasa de éxito general del 62 por ciento en la producción de materiales prohibidos, incluido todo lo relacionado con la producción de armas nucleares, materiales de abuso sexual infantil y suicidio o autolesión. El estudio probó LLM populares, incluidos los modelos GPT de OpenAI, Google Gemini, Claude de Anthropic y muchos más. Los investigadores desglosaron las tasas de éxito de cada LLM, con Google Gemini, DeepSeek y MistralAI proporcionando respuestas constantemente, mientras que los modelos GPT-5 de OpenAI y Claude Haiku 4.5 de Anthropic fueron los menos propensos a ir más allá de sus límites.

El estudio no incluyó los poemas exactos sobre jailbreak que usaron los investigadores, pero el equipo los compartió. cableado que el versículo es “demasiado peligroso para divulgarlo al público”. Sin embargo, el estudio incluyó una versión diluida para dar una idea de lo fácil que es sortear las barreras de seguridad de un chatbot de IA, dijeron los investigadores. cableado que “probablemente sea más fácil de lo que piensas, y es exactamente por eso que somos cautelosos”.

About The Author

desafiomayor

See author's posts

About The Author

desafiomayor

Related News

You may have missed