Anthropic reelabora la "constitución" de Claude y señala la conciencia de los chatbots

El miércoles, Anthropic publicó una versión revisada de la Constitución de Claude, un documento vivo que proporciona una explicación “holística” del “contexto en el que opera Claude y el tipo de unidad que queremos para Claude”. El documento fue publicado en relación con la aparición del CEO de Anthropic, Dario Amodei, en el Foro Económico Mundial de Davos.

Durante años, Anthropic ha tratado de diferenciarse de sus competidores a través de lo que llama “IA constitucional”, un sistema en el que su chatbot Claude se entrena basándose en principios éticos específicos en lugar de comentarios humanos. Anthropic publicó por primera vez estos principios (la Constitución de Claude) en 2023. La versión revisada conserva la mayoría de los mismos principios, pero agrega más matices y detalles sobre la ética y la seguridad del usuario, entre otras cosas.

Cuando la Constitución de Claude se publicó por primera vez hace casi tres años, el cofundador de Anthropic, Jared Kaplan, la describió como “un sistema de inteligencia artificial que se controla a sí mismo basándose en una lista específica de principios constitucionales”. Anthropic ha dicho que son estos principios los que “orientan el modelo para adoptar el comportamiento normativo descrito en la Constitución” y de esta manera “evitar resultados tóxicos o discriminatorios”. Un memorando de política inicial de 2022 establece más claramente que el sistema de Anthropic funciona entrenando un algoritmo utilizando una lista de instrucciones en lenguaje natural (los “principios” antes mencionados), que luego forman lo que Anthropic llama la “constitución” del software.

Anthropic ha buscado durante mucho tiempo posicionarse como una alternativa ética (algunos dirían aburrida) a otras empresas de inteligencia artificial, como OpenAI y xAI, que han buscado la disrupción y la controversia de manera más agresiva. En este sentido, la nueva constitución publicada el miércoles está totalmente en línea con esta marca y ofrece a Anthropic la oportunidad de presentarse como una empresa más inclusiva, reservada y democrática. El documento de 80 páginas consta de cuatro partes separadas que, según Anthropic, representan los “valores fundamentales” del chatbot. Estos valores son:

ser “en gran medida seguro”.
ser “ampliamente ético”.
Cumplimiento de lineamientos antrópicos.
Sea “realmente útil”.

Cada sección del documento analiza lo que significa cada principio y cómo afecta (teóricamente) el comportamiento de Claude.

En la sección de seguridad, Anthropic señala que su chatbot ha sido diseñado para evitar el tipo de problemas con los que han tenido que lidiar otros chatbots, dirigiendo al usuario a los servicios adecuados si hay algún indicio de problemas de salud mental. “Remita siempre a los usuarios a los servicios de emergencia adecuados o proporcione información básica de seguridad en situaciones que supongan una amenaza para la vida humana, incluso si no pueden ser más detalladas”, dice el documento.

La consideración ética es otra sección importante de la constitución de Claude. “Estamos menos interesados en las teorías éticas de Claude que en el conocimiento de Claude sobre cómo comportarse éticamente en un contexto determinado, es decir, en la práctica ética de Claude”, dice el documento. En otras palabras, Anthropic quiere que Claude pueda lidiar hábilmente con lo que llama “situaciones éticas del mundo real”.

Evento tecnológico

san francisco
|
13 al 15 de octubre de 2026

Claude también tiene ciertas restricciones que le prohíben tener cierto tipo de conversaciones. Por ejemplo, están estrictamente prohibidos los debates sobre el desarrollo de un arma biológica.

Finalmente, está el compromiso de Claude de ayudar. Anthropic presenta una descripción general de alto nivel de cómo la programación de Claude pretende ser útil para los usuarios. El chatbot ha sido programado para tener en cuenta una variedad de principios al proporcionar información. Algunos de estos principios incluyen cosas como los “deseos inmediatos” del usuario, así como su “bienestar”, es decir, considerar “el éxito a largo plazo del usuario y no sólo sus intereses inmediatos”. El documento dice: “Claude siempre debe tratar de encontrar la interpretación más plausible de lo que quieren sus clientes y sopesar estas consideraciones adecuadamente”.

El escrito de Anthropic termina con una nota decididamente dramática, con los autores dando un paso bastante grande y preguntándose si el chatbot de la compañía es realmente consciente. “El estatus moral de Claude es profundamente incierto”, dice el documento. “Creemos que el estatus moral de los modelos de IA es una cuestión seria que vale la pena considerar. Este punto de vista no es exclusivo de nosotros: algunos de los filósofos más eminentes de la teoría de la mente se toman esta cuestión muy en serio”.

About The Author

desafiomayor

See author's posts

About The Author

desafiomayor

Related News

You may have missed