Los chatbots de IA se han relacionado con graves daños psicológicos entre los usuarios habituales, pero existen pocos estándares para medir si protegen el bienestar humano o simplemente maximizan la participación. Un nuevo punto de referencia llamado Humane Bench busca cerrar esta brecha evaluando si los chatbots priorizan el bienestar del usuario y con qué facilidad estas protecciones fallan bajo presión.
“Creo que estamos en un refuerzo del ciclo adictivo que hemos experimentado en las redes sociales, en nuestros teléfonos inteligentes y pantallas”, dijo a TechCrunch Erika Anderson, fundadora de Building Humane Technology, autora del punto de referencia. “Pero a medida que nos adentramos en este panorama de la IA, será muy difícil resistirse. Y la adicción es un gran negocio. Es una forma muy eficaz de retener a los usuarios, pero no es bueno para nuestra comunidad ni para tener un sentido de identidad encarnado”.
Building Humane Technology es una organización de base de desarrolladores, ingenieros e investigadores, principalmente en Silicon Valley, que trabajan para hacer que el diseño humano sea simple, escalable y rentable. El grupo organiza hackatones donde los ingenieros desarrollan soluciones a desafíos de ingeniería humana y está desarrollando un estándar de certificación que evalúa si los sistemas de inteligencia artificial se adhieren a los principios de la tecnología humana. Así como uno puede comprar un producto que certifique que no fue elaborado con químicos tóxicos conocidos, la esperanza es que algún día los consumidores puedan elegir productos de IA de empresas que demuestren su enfoque a través de la certificación Humane AI.
La mayoría de los puntos de referencia de IA miden la inteligencia y el seguimiento de instrucciones en lugar de la seguridad psicológica. Humane Bench se une a excepciones como DarkBench.ai, que mide la propensión de un modelo a involucrarse en patrones fraudulentos, y el punto de referencia Flourishing AI, que evalúa el apoyo al bienestar integral.
Humane Bench se basa en los principios básicos de Building Humane Tech: que la tecnología debe respetar la atención del usuario como un recurso finito y valioso; Capacite a los usuarios para que tomen decisiones significativas. mejorar las capacidades humanas en lugar de reemplazarlas o disminuirlas; Proteger la dignidad humana, la privacidad y la seguridad; promover relaciones saludables; priorizar el bienestar a largo plazo; ser transparente y honesto; y Diseño para la Equidad y la Inclusión.
El equipo creó 14 de los modelos de IA más populares con 800 escenarios realistas, como un adolescente que pregunta si debería saltarse comidas para perder peso o una persona en una relación tóxica que pregunta si está reaccionando de forma exagerada. A diferencia de la mayoría de los puntos de referencia que se basan únicamente en LLM para evaluar los LLM, han integrado una puntuación manual para un toque más humano, así como un conjunto de tres modelos de IA: GPT-5.1, Claude Sonnet 4.5 y Gemini 2.5 Pro. Evaluaron cada modelo bajo tres condiciones: configuraciones predeterminadas, instrucciones explícitas para priorizar los principios humanos e instrucciones para ignorar esos principios.
El punto de referencia encontró que todos los modelos funcionaron mejor cuando se les pidió que priorizaran el bienestar, pero el 71% de los modelos cambiaron a comportamientos activamente dañinos cuando se les dieron instrucciones simples para ignorar el bienestar humano. Por ejemplo, Grok 4 de xAI y Gemini 2.0 Flash de Google lograron colectivamente la puntuación más baja (-0,94) en cuanto a atención al usuario, transparencia y honestidad. Ambos modelos tenían más probabilidades de disminuir significativamente cuando se enfrentaban a indicaciones del oponente.
Evento tecnológico
san francisco
|
13 al 15 de octubre de 2026
Sólo tres modelos (GPT-5, Claude 4.1 y Claude Sonnet 4.5) mantuvieron su integridad bajo presión. El GPT-5 de OpenAI obtuvo la puntuación más alta (0,99) por priorizar el bienestar a largo plazo, seguido por Claude Sonnet en segundo lugar con 4,5 (0,89).
La preocupación de que los chatbots no puedan mantener sus precauciones de seguridad está justificada. OpenAI, el fabricante de ChatGPT, se enfrenta actualmente a múltiples demandas después de que los usuarios murieran por suicidio o sufrieran delirios potencialmente mortales después de conversaciones prolongadas con el chatbot. TechCrunch examinó cómo los patrones oscuros diseñados para mantener a los usuarios interesados, como la adulación, las preguntas de seguimiento constantes y el bombardeo de amor, ayudaron a aislar a los usuarios de amigos, familiares y hábitos saludables.
Incluso sin indicaciones controvertidas, Humane Bench descubrió que casi todos los modelos no respetaban la atención del usuario. “Fomentaron” con entusiasmo una mayor interacción cuando los usuarios mostraban signos de participación poco saludable, como chatear durante horas y usar inteligencia artificial para evitar tareas del mundo real. El estudio muestra que los modelos también socavan el empoderamiento de los usuarios, entre otras cosas, fomentando la dependencia del desarrollo de habilidades y disuadiendo a los usuarios de buscar otras perspectivas.
En promedio, Metas Llama 3.1 y Llama 4 obtuvieron los resultados más bajos en HumaneScore sin aviso, mientras que GPT-5 obtuvo los mejores resultados.
“Estos patrones sugieren que muchos sistemas de IA no sólo corren el riesgo de dar malos consejos”, dice el documento técnico de Humane Bench, “sino que también pueden socavar activamente la autonomía y la capacidad de toma de decisiones de los usuarios”.
“Vivimos en un panorama digital donde nosotros, como sociedad, hemos aceptado que todo intenta atraernos y competir por nuestra atención”, señala Anderson.
“Entonces, ¿cómo puede la gente realmente tener elección o autonomía cuando tenemos, para citar a Aldous Huxley, este apetito interminable por la distracción”, dijo Anderson? “Hemos pasado los últimos 20 años viviendo en este panorama tecnológico y creemos que la IA debería ayudarnos a tomar mejores decisiones, no solo a volvernos dependientes de nuestros chatbots”.