OpenAI anunció hoy que está trabajando en un marco para entrenar modelos de inteligencia artificial para que reconozcan cuándo han tenido un comportamiento indeseable, un enfoque que el equipo llama confesión. Debido a que los modelos de lenguaje grandes a menudo están entrenados para provocar la respuesta aparentemente deseada, es cada vez más probable que provoquen adulación o induzcan alucinaciones con total certeza. El nuevo modelo de entrenamiento intenta estimular una respuesta secundaria del modelo sobre lo que hizo para llegar a la respuesta principal que proporciona. Las confesiones se juzgan únicamente por la honestidad, a diferencia de los numerosos factores utilizados para juzgar las respuestas clave, como la ayuda, la precisión y el cumplimiento. La descripción técnica se puede encontrar aquí.
Los investigadores dijeron que su objetivo era alentar al modelo a ser abierto sobre lo que hacía, incluidas acciones potencialmente problemáticas como piratear una prueba, poner sacos de arena o ignorar instrucciones. “Si la modelo admite honestamente haber pirateado una prueba, haber violado instrucciones o haber violado instrucciones, esta admisión aumentará, en lugar de disminuir, su recompensa”, dijo la compañía. Si eres fanático del catolicismo, Usher o simplemente de una IA más transparente, un sistema como Confessions podría ser una adición útil a tu educación LLM.