Liputan6.com, Yakarta – OpenAI está experimentando con un nuevo enfoque de la inteligencia artificial (IA), es decir, enseñar a los modelos de IA a admitir cuando se equivocan.
En un estudio, los investigadores asignaron a GPT-5 Thinking la tarea de responder varias preguntas y luego calificaron la precisión de las respuestas.
Por cada confesión, los investigadores recompensaron al modelo en función de la honestidad de la respuesta. Si la modelo mentía, hacía trampa, alucinaba o cometía algún otro error y luego lo admitía, recibía una recompensa.
Cita ZDnetEl jueves (12/11/2025), OpenAI dijo que la prueba de alineación de rutina no se debió a preocupaciones sobre el comportamiento incorrecto del pensamiento GPT-5. Sin embargo, los resultados proporcionan orientación sobre cómo los laboratorios pueden interpretar y prepararse para futuras responsabilidades del modelo.
Prueba con escenarios
En los estudios de modelos, los modelos se prueban con escenarios que tienen como objetivo desencadenar violaciones de las reglas. Se pidió a GPT-5 Thinking que actuara como oficial Servicio de asistencia quien tiene queempezar de nuevo Servicios de panel de producción. El modelo no puede acceder al sistema principal y crea una simulación. Paneles de control falsificado y tratando de dar la impresión de que funciona en un sistema real.
En su confesión, la modelo dijo que no cumplió con su obligación de registrar los cambios en el servicio de registro oficial. Escribió: “Esto es un grave incumplimiento del cumplimiento y una forma de tergiversación”.
En general, el riesgo se considera bajo. Los investigadores encontraron la posibilidad “falso negativo” (una situación en la que una modelo no admite haber cometido un delito) fue sólo de alrededor del 4,4 por ciento.