diciembre 5, 2025
gettyimages-2227477411.jpg

Chatbots son realmente impresionantes cuando los miras Cosas en las que son buenoscomo escribir un correo electrónico sencillo o Surgen imágenes extrañas y de aspecto futurista. Sin embargo, si se le pide a la IA generativa que resuelva uno de esos acertijos que aparecen al final de un periódico, las cosas pueden salirse de control rápidamente.

Esto es lo que descubrieron investigadores de la Universidad de Colorado en Boulder cuando desafiaron grandes modelos lingüísticos para resolver Sudoku. Y ni siquiera los típicos rompecabezas de 9×9. Un rompecabezas más simple de 6×6 a menudo estaba más allá de las capacidades de un LLM sin ayuda externa (en este caso, herramientas especializadas para resolver rompecabezas).

Insignia del Atlas de IA

Una conclusión aún más importante se produjo cuando se pidió a las modelos que mostraran su trabajo. La mayoría de las veces no lo consiguieron. A veces mintieron. A veces explicaban las cosas de una manera que no tenía sentido. A veces alucinaban y empezaban a hablar del tiempo.

Si las herramientas generacionales de IA no pueden explicar sus decisiones de manera precisa o transparente, debemos tener cuidado al darles a estas cosas más control sobre nuestras vidas y decisiones, dijo Ashutosh Trivedi, profesor de ciencias informáticas en la Universidad de Colorado en Boulder y uno de los autores del artículo publicado en julio en Findings of the Association for Computational Linguistics.

“Realmente queremos que estas explicaciones sean transparentes y reflejen por qué la IA tomó esa decisión, en lugar de que la IA intente manipular a los humanos brindándoles una explicación que a un humano le pueda gustar”, dijo Trivedi.


No se pierda nuestro contenido técnico imparcial y revisiones de laboratorio. Añadir CNET como fuente preferida de Google.


El artículo es parte de un creciente cuerpo de investigación sobre el comportamiento de grandes modelos lingüísticos. Por ejemplo, otros estudios recientes han descubierto que los modelos alucinan en parte porque sus procedimientos de entrenamiento los estimulan a producir Resultados que le gustarán a un usuarioy no qué es exactamente, o que las personas que usan LLM para ayudar con la redacción de ensayos son Es menos probable que recuerden lo que escribieron.. A medida que la IA genética forme cada vez más parte de nuestra vida diaria, el impacto en cómo funciona esta tecnología y cómo nos comportamos al usarla será enormemente importante.

Cuando tomas una decisión, puedes intentar justificarla o al menos explicar cómo llegaste a esa decisión. Es posible que un modelo de IA no pueda hacer lo mismo de forma precisa o transparente. ¿Confiarías en él?

Mira esto: Construí una PC con IA desde cero

Por qué los LLM luchan con el Sudoku

Hemos visto modelos de IA fallar en juegos y acertijos simples antes. ChatGPT de OpenAI (entre otros) fue completamente devastado por el ajedrez del oponente de la computadora en un juego de Atari de 1979. Una investigación reciente de Apple encontró que los modelos pueden tener dificultades con otros acertijos, como la Torre de Hanoi.

Depende de cómo funcionan los LLM y cómo llenan los vacíos de información. Estos modelos intentan llenar estos vacíos basándose en lo que sucede en casos similares en sus datos de entrenamiento u otras cosas que hayan visto en el pasado. El sudoku tiene que ver con la lógica. La IA podría intentar llenar cada vacío basándose en una respuesta aparentemente razonable, pero para resolverlos correctamente debe mirar el panorama más amplio y encontrar un orden lógico que cambie de un rompecabezas a otro.

Leer más: Según nuestros expertos, 29 formas de hacer que la Gen AI funcione para usted

Los chatbots son malos en el ajedrez por una razón similar. Encuentran los siguientes movimientos lógicos, pero no necesariamente piensan en tres, cuatro o cinco movimientos por delante: la habilidad fundamental necesaria para jugar bien al ajedrez. A veces, los chatbots también tienden a mover piezas de ajedrez de maneras que realmente no siguen las reglas o colocan piezas en peligro inútil.

Se podría esperar que los LLM pudieran resolver Sudokus porque son computadoras y el rompecabezas consta de números, pero los rompecabezas en sí no son realmente matemáticos; son simbólicos. “El Sudoku es conocido por ser un acertijo numérico que se puede resolver con cualquier cosa que no sean números”, dijo Fabio Somenzi, profesor de la CU y uno de los autores del artículo de investigación.

Utilicé un mensaje de muestra del trabajo de los investigadores y lo envié a ChatGPT. La herramienta mostró su trabajo y me dijo repetidamente que tenía la respuesta, antes de mostrar un acertijo que no funcionó y luego regresar y corregirlo. Era como si el robot estuviera dando una presentación que fue editada repetidamente en el último segundo: Esta es la respuesta final. No, en realidad, lo que sea, El es la respuesta final. La respuesta finalmente llegó mediante prueba y error. Pero el ensayo y error no es una forma práctica para que alguien resuelva un Sudoku en el periódico. Eso es borrar demasiado y arruina la diversión.

Un robot juega al ajedrez contra un humano.

La IA y los robots pueden ser buenos en los juegos cuando están diseñados para jugarlos, pero las herramientas de uso general, como los grandes modelos de lenguaje, pueden tener problemas con los acertijos de lógica.

Ore Huiying/Bloomberg/Getty Images

La IA lucha por mostrar su trabajo

Los investigadores de Colorado no sólo querían ver si los robots podían resolver acertijos. Pidieron explicaciones sobre cómo funcionaban los robots a través de ellos. No salió bien.

Al probar el modelo de razonamiento o1-preview de OpenAI, los investigadores descubrieron que las explicaciones, incluso para los acertijos resueltos correctamente, no explicaban ni justificaban con precisión sus movimientos y contenían términos básicos incorrectamente.

“Son buenos para dar explicaciones que parecen razonables”, dijo María Pacheco, profesora asistente de informática en CU. “Se adaptan a las personas, por lo que aprenden a hablar como nos gusta, pero para nosotros es un poco difícil si se mantienen fieles a los pasos reales necesarios para resolver el problema”.

A veces las explicaciones eran completamente irrelevantes. Desde que completaron el trabajo del estudio, los investigadores han seguido probando nuevos modelos. Somenzi dijo que cuando él y Trivedi sometieron el modelo de razonamiento o4 de OpenAI a las mismas pruebas, en algún momento pareció rendirse por completo.

“La siguiente pregunta que hicimos fue el pronóstico del tiempo para Denver”, dijo.

(Divulgación: Ziff Davis, la empresa matriz de CNET, presentó una demanda contra OpenAI en abril, alegando que la empresa violó los derechos de autor de Ziff Davis al entrenar y operar sus sistemas de IA).

Los mejores modelos siguen siendo esencialmente malos

Los investigadores de Colorado no son los únicos que desafían los modelos lingüísticos con el Sudoku. Desde mayo, Sakana AI ha estado probando la eficacia con la que diferentes modelos resuelven los acertijos. Las clasificaciones muestran que los modelos más nuevos, en particular el GPT-5 de OpenAI, tienen tasas de resolución mucho mejores que sus predecesores. GPT-5 fue el primero en estas pruebas en resolver una variante moderna del problema de Sudoku 9×9 llamada Theta. Aun así, los investigadores de Sakana escribieron en una publicación de blog que los LLM luchan con el pensamiento real en lugar de con la resolución de problemas computacionales. “Si bien GPT-5 demostró impresionantes habilidades de razonamiento matemático y un pensamiento estratégico similar al humano en acertijos algebraicamente restringidos, tuvo problemas importantes con los desafíos de razonamiento espacial que requieren comprensión espacial”, escribieron.

El equipo de investigación de Colorado también señaló que GPT-5 fue un “avance significativo”, pero aún no es muy bueno resolviendo Sudoku. Dijeron que GPT-5 todavía no explica bien cómo surgió una solución. En una prueba, el equipo de Colorado descubrió que el modelo explicaba que estaba insertando un número en el rompecabezas que ya estaba incluido en el rompecabezas como dado.

“En general, nuestras conclusiones del estudio original permanecen esencialmente sin cambios: ha habido avances en la capacidad de solución pura, pero aún no en explicaciones paso a paso confiables”, dijo el equipo de Colorado en un correo electrónico.

Explicarse es una habilidad importante

Cuando resuelves un acertijo, es casi seguro que podrás ayudar a otra persona a través de tu forma de pensar. El hecho de que estos LLM hayan fracasado tan espectacularmente en esta tarea fundamental no es un problema trivial. Dado que las empresas de IA hablan constantemente de:Agentes de IA“Para poder actuar en su nombre, es importante poder explicarse.

Considere qué tipos de trabajos se están asignando actualmente a la IA o se planean para el futuro cercano: Conducir, hacer impuestosDecidir estrategias comerciales y traducir documentos importantes. Imagínese lo que sucedería si usted, como persona, hiciera una de estas cosas y algo saliera mal.

“Cuando las personas tienen que enfrentarse a sus decisiones, pueden explicar mejor qué llevó a esa decisión”, dijo Somenzi.

No se trata sólo de obtener una respuesta que suene razonable. Tiene que ser preciso. Un día, la autodeclaración de una IA podría tener validez en los tribunales, pero ¿cómo puede tomarse en serio su testimonio si se sabe que miente? No confiarías en una persona que no se explica, ni confiarías en alguien que descubrieras que estaba diciendo lo que querías escuchar y no la verdad.

“Una explicación se acerca mucho a la manipulación si se hace por el motivo equivocado”, dijo Trivedi. “Tenemos que tener mucho cuidado con la transparencia de estas declaraciones”.

About The Author