La mejor guía para reconocer la escritura de IA proviene de Wikipedia

Todos hemos sentido la sospecha furtiva de que algo que estamos leyendo fue escrito por un modelo de lenguaje importante, pero es notablemente difícil de identificar. Durante unos meses el año pasado, se creyó que ciertas palabras como “sumergir” o “subrayar” podrían revelar modelos, pero la evidencia es escasa y, a medida que los modelos se han vuelto más sofisticados, se ha vuelto más difícil rastrear las palabras reveladoras.

Pero resulta que la gente de Wikipedia se ha vuelto bastante buena a la hora de señalar la prosa escrita por IA, y la guía pública del grupo sobre “Personajes de la escritura por IA” es el mejor recurso que he encontrado para determinar si sus sospechas están justificadas. (Gracias al poeta Jameson Fitzpatrick por señalar el documento sobre X.)

Desde 2023, los editores de Wikipedia han estado trabajando para controlar los envíos de IA, un proyecto que llaman Proyecto AI Cleanup. Con millones de ediciones cada día, hay mucho material en el que basarse y, en el estilo clásico del editor de Wikipedia, el grupo ha producido una guía de campo que es a la vez detallada y probatoria.

En primer lugar, la guía confirma lo que ya sabemos: las herramientas automatizadas son fundamentalmente inútiles. En cambio, la guía se centra en hábitos y frases que son poco comunes en Wikipedia pero comunes en Internet (y por lo tanto comunes en los datos de entrenamiento del modelo). Según la guía, las presentaciones de IA dedican mucho tiempo a resaltar por qué un tema es importante, generalmente en términos generales como “un momento decisivo” o “un movimiento más amplio”. Los modelos de IA también dedicarán mucho tiempo a detallar puntos mediáticos más pequeños para que el tema parezca digno de mención: el tipo de cosa que esperarías de una biografía personal, pero no de una fuente independiente.

La guía señala una peculiaridad particularmente interesante en el contexto de las cláusulas de seguimiento cuya importancia no está clara. Los modelos dirán que un evento o detalle “enfatiza la importancia” de algo o “refleja la relevancia continua” de una idea general. (Los nerds de la gramática conocen esto como “participio presente”). Es un poco difícil de identificar, pero una vez que lo reconoces, lo verás en todas partes.

También existe una tendencia hacia un lenguaje de marketing vago que prevalece en Internet. Los paisajes son siempre pintorescos, las vistas siempre son impresionantes y todo está limpio y moderno. Como lo expresaron los editores: “Suena más como la transcripción de un comercial de televisión”.

Vale la pena leer la guía en su totalidad, pero quedé muy impresionado. Anteriormente habría dicho que la prosa del LLM se movía demasiado rápido para precisarla. Sin embargo, los hábitos analizados aquí están profundamente arraigados en la forma en que se entrenan e implementan los modelos de IA. Se pueden disfrazar, pero será difícil eliminarlos por completo. Y si el público en general sabe más sobre cómo identificar la prosa de la IA, podría tener todo tipo de consecuencias interesantes.

About The Author

desafiomayor

See author's posts

About The Author

desafiomayor

Related News

You may have missed