Incluso mientras OpenAI trabaja para fortalecer su navegador Atlas AI contra ataques cibernéticos, la compañía reconoce que las inyecciones rápidas, un tipo de ataque en el que los agentes de IA son manipulados para que sigan instrucciones maliciosas a menudo ocultas en páginas web o correos electrónicos, son un riesgo que no desaparecerá pronto, lo que genera dudas sobre la seguridad con la que los agentes de IA pueden operar en la web abierta.
“La inyección rápida, similar al fraude y la ingeniería social en la web, probablemente nunca se 'resuelva' por completo”, escribió OpenAI en una publicación de blog el lunes que detalla cómo la compañía está reforzando el blindaje de Atlas para combatir los incesantes ataques. La empresa reconoció que el “modo agente” en ChatGPT Atlas “expande la superficie de ataque de las amenazas a la seguridad”.
OpenAI lanzó su navegador ChatGPT Atlas en octubre y los investigadores de seguridad se apresuraron a publicar sus demostraciones que mostraban que era posible escribir algunas palabras en Google Docs que podrían cambiar el comportamiento del navegador subyacente. El mismo día, Brave publicó una entrada de blog explicando que la inyección rápida indirecta es un desafío sistemático para los navegadores impulsados por IA, incluido Perplexity's Comet.
OpenAI no es el único que reconoce que las inyecciones basadas en indicaciones no van a desaparecer. El Centro Nacional de Seguridad Cibernética de Gran Bretaña advirtió a principios de este mes que los ataques de inyección rápida contra aplicaciones de IA generativa “pueden nunca ser mitigados por completo” y ponen a los sitios web en riesgo de ser víctimas de violaciones de datos. La agencia del gobierno del Reino Unido aconsejó a los expertos cibernéticos que reduzcan el riesgo y el impacto de las inyecciones inmediatas en lugar de creer que los ataques podrían “detenerse”.
En cuanto a OpenAI, la compañía dijo: “Consideramos la inyección instantánea como un desafío de seguridad de la IA a largo plazo y debemos fortalecer continuamente nuestras defensas contra ella”.
¿La respuesta de la empresa a esta tarea de Sísifo? Un ciclo de respuesta rápida y proactiva que, según la empresa, ayuda a descubrir nuevas estrategias de ataque internamente en una etapa temprana antes de que sean explotadas “en la naturaleza”.
Esto no es del todo diferente de lo que han dicho competidores como Anthropic y Google: para combatir el riesgo continuo de ataques rápidos, las defensas deben estratificarse y someterse a pruebas de estrés continuamente. Por ejemplo, el trabajo reciente de Google se centra en controles a nivel arquitectónico y de políticas para sistemas de agentes.
Sin embargo, OpenAI está adoptando un enfoque diferente con su “atacante automatizado basado en LLM”. Este atacante es esencialmente un bot que OpenAI entrenó mediante aprendizaje por refuerzo para asumir el papel de un hacker que busca formas de proporcionar instrucciones maliciosas a un agente de IA.
El robot puede probar el ataque en una simulación antes de implementarlo en la realidad, y el simulador muestra cómo pensaría la IA objetivo y qué acciones tomaría si viera el ataque. Luego, el robot puede examinar esta reacción, optimizar el ataque e intentarlo una y otra vez. Los externos no tienen acceso a esta información sobre las deliberaciones internas de la IA objetivo. Entonces, en teoría, el robot de OpenAI debería poder encontrar errores más rápido que un atacante en el mundo real.
Es una táctica común en las pruebas de seguridad de IA: crear un agente para encontrar los casos extremos y probarlos rápidamente en simulación.
“Nuestro atacante capacitado (en aprendizaje por refuerzo) puede engañar a un agente para que ejecute flujos de trabajo sofisticados y maliciosos durante un largo período de tiempo, abarcando docenas (o incluso cientos) de pasos”, escribió OpenAI. “También observamos nuevas estrategias de ataque que no aparecieron en nuestra campaña de formación de equipos humanos ni en informes externos”.
En una demostración (en la foto de arriba), OpenAI mostró cómo su atacante automatizado entregó un correo electrónico malicioso a la bandeja de entrada de un usuario. Más tarde, cuando el agente de IA escaneó la bandeja de entrada, siguió las instrucciones ocultas en el correo electrónico y envió un mensaje de cancelación en lugar de redactar una respuesta de fuera de la oficina. Pero después de la actualización de seguridad, el “modo agente” pudo detectar con éxito el intento de inyección inmediata e informarlo al usuario, dijo la compañía.
La compañía dice que si bien es difícil brindar una protección infalible contra una inyección inmediata, depende de pruebas a gran escala y ciclos de parches más rápidos para fortalecer sus sistemas antes de que queden expuestos a ataques del mundo real.
Un portavoz de OpenAI se negó a decir si la actualización de seguridad de Atlas resultó en una reducción mensurable en las inyecciones exitosas, pero dijo que la compañía ya había estado trabajando con terceros para proteger a Atlas contra inyecciones inmediatas antes del lanzamiento.
Rami McCarthy, investigador senior de seguridad de la firma de ciberseguridad Wiz, dice que el aprendizaje por refuerzo es una forma de adaptarse continuamente al comportamiento de los atacantes, pero es solo una parte del panorama.
“Una forma útil de pensar en el riesgo en los sistemas de IA es la autonomía multiplicada por el acceso”, dijo McCarthy a TechCrunch.
“Los navegadores de agentes tienden a encontrarse en una parte desafiante de este espacio: una autonomía moderada combinada con un acceso muy alto”, dijo McCarthy. “Muchas recomendaciones actuales reflejan esta compensación. Restringir el acceso conectado reduce principalmente la exposición, mientras que requerir la revisión de las solicitudes de verificación limita la autonomía”.
Estas son dos de las recomendaciones de OpenAI a los usuarios para reducir su propio riesgo, y un portavoz dijo que Atlas también está capacitado para obtener la confirmación del usuario antes de enviar mensajes o realizar pagos. OpenAI también sugiere que los usuarios den a los agentes instrucciones específicas en lugar de otorgarles acceso a su bandeja de entrada y decirles que “tomen las medidas necesarias”.
“El amplio alcance facilita que el contenido oculto o malicioso influya en el agente, incluso cuando existen medidas de seguridad”, dijo OpenAI.
Si bien OpenAI dice que proteger a los usuarios de Atlas de las inyecciones instantáneas es una máxima prioridad, McCarthy plantea cierto escepticismo sobre el retorno de la inversión para los navegadores propensos a riesgos.
“Para la mayoría de los casos de uso cotidianos, los navegadores de agentes aún no proporcionan suficiente valor para justificar su perfil de riesgo actual”, dijo McCarthy a TechCrunch. “Dado su acceso a datos confidenciales como el correo electrónico y la información de pago, el riesgo es alto, incluso si ese acceso también los hace poderosos. Este equilibrio seguirá evolucionando, pero incluso hoy las compensaciones son muy reales”.