Google anunció una serie de nuevas funciones de seguridad en Chrome el lunes después de que la compañía agregara capacidades de inteligencia artificial (IA) al navegador web.
Con este fin, el gigante tecnológico dice que ha implementado defensas de múltiples capas para dificultar que los actores maliciosos aprovechen las inyecciones indirectas que surgen del acceso a contenido web no confiable y causan daños.
Las características clave incluyen un crítico de alineación de usuarios, que utiliza un segundo modelo para evaluar las acciones del agente de forma independiente y aislada de indicaciones maliciosas. Este enfoque complementa las técnicas existentes de Google, como Spotlighting, que indica al modelo que siga las instrucciones del usuario y del sistema en lugar de lo que está incrustado en una página web.
“El User Alignment Critic se ejecuta después de completar la planificación para verificar cada acción sugerida”, dijo Google. “Su enfoque principal es la alineación de tareas: determinar si la acción propuesta sirve al objetivo declarado del usuario. Si la acción está desalineada, el detractor de la alineación la vetará”.
El componente está diseñado para mostrar únicamente metadatos sobre la acción propuesta e impedir el acceso a contenido web que no sea de confianza. Esto garantiza que no se vean envenenados por mensajes maliciosos que puedan incluirse en un sitio web. User Alignment Critic tiene como objetivo brindar protección contra intentos maliciosos de exfiltrar datos o secuestrar objetivos previstos para llevar a cabo las intenciones del atacante.
“Si se rechaza una acción, el crítico proporciona retroalimentación al modelo de planificación para reformular su plan, y el planificador puede devolver el control al usuario si ocurren fallas repetidas”, dijo Nathan Parker del equipo de seguridad de Chrome.
Google también aplica los llamados Conjuntos de orígenes de agentes para garantizar que el agente solo tenga acceso a datos de orígenes relevantes para la tarea en cuestión o a fuentes de datos que el usuario haya compartido con el agente. El objetivo es evitar el aislamiento del sitio, donde un agente comprometido puede interactuar con cualquier sitio y permitirle extraer datos de los sitios en los que ha iniciado sesión.

Esto se implementa mediante una función de control que determina qué orígenes están relacionados con la tarea y los clasifica en dos grupos:
- Orígenes de solo lectura desde los cuales el modelo Gemini AI de Google puede consumir contenido
- Orígenes de lectura/escritura que el agente puede tocar o hacer clic además de leer
“Esta delimitación exige que el agente sólo tenga a disposición del agente datos de un conjunto limitado de orígenes y que los datos sólo puedan pasarse a orígenes grabables”, explicó Google. “Esto limita el vector de amenaza de las filtraciones de datos entre orígenes”.
Al igual que User Alignment Critic, la función de control no está disponible para contenido web no confiable. El programador también debe obtener aprobación de activación antes de agregar nuevos orígenes, aunque puede utilizar el contexto de las páginas web que un usuario ha compartido explícitamente en una sesión.

Otro pilar importante de la nueva arquitectura de seguridad se relaciona con la transparencia y el control del usuario, que permite al agente crear un registro de trabajo para la observación del usuario y obtener su permiso explícito antes de navegar a sitios web sensibles como portales bancarios y de salud, permitir inicios de sesión a través de Google Password Manager o realizar acciones web como compras, pagos o envío de mensajes.
Finalmente, el agente también verifica cada página en busca de mensajes indirectos y trabaja con Navegación segura y detección de fraude en el dispositivo para bloquear contenido potencialmente sospechoso.
“Este clasificador de inyección rápida se ejecuta en paralelo con la inferencia del modelo de planificación, evitando que se tomen medidas basadas en el contenido que el clasificador ha determinado que apunta intencionalmente al modelo para hacer algo que es inconsistente con el objetivo del usuario”, dijo Google.

Para incentivar aún más la investigación y encontrar agujeros en el sistema, la compañía dijo que pagaría hasta 20.000 dólares por demostraciones que resulten en una violación de los límites de seguridad. Estos incluyen inyecciones indirectas instantáneas que permiten a un atacante:
- Realizar acciones no deseadas sin confirmación
- Exfiltrar datos confidenciales sin un medio eficaz de aprobación del usuario
- Omitir una mitigación que idealmente debería haber impedido que el ataque tuviera éxito en primer lugar.
“Al ampliar algunos principios básicos como el aislamiento del origen y las defensas en capas, además de introducir una arquitectura modelo confiable, estamos creando una base segura para las experiencias de los agentes de Gemini en Chrome”, dijo Google. “Seguimos comprometidos con la innovación continua y la colaboración con la comunidad de seguridad para garantizar que los usuarios de Chrome puedan explorar de forma segura esta nueva era de la web”.

El anuncio sigue a un estudio de Gartner que pide a las organizaciones que bloqueen el uso de navegadores de agentes de IA hasta que se puedan gestionar adecuadamente los riesgos asociados, como inyecciones indirectas de avisos, acciones erróneas de los agentes y pérdida de datos.
El estudio también advierte de un posible escenario en el que los empleados “podrían verse tentados a utilizar navegadores con IA y automatizar determinadas tareas que son obligatorias, repetitivas y menos interesantes”. Esto podría cubrir casos en los que una persona elude la capacitación obligatoria en ciberseguridad al indicarle al navegador de IA que la complete en su nombre.
“Los navegadores de agentes, o lo que muchos llaman navegadores de IA, tienen el potencial de transformar la forma en que los usuarios interactúan con los sitios web, automatizando transacciones e introduciendo riesgos críticos de ciberseguridad”, dijo la consultora. “Los CISO deberán bloquear todos los navegadores de IA en el futuro previsible para minimizar el riesgo”.
El desarrollo se produce en un momento en que el Centro Nacional de Seguridad Cibernética de EE. UU. (NCSC) dijo que los modelos de lenguajes grandes (LLM) pueden sufrir una clase persistente de vulnerabilidades conocida como “inyección rápida” y que el problema nunca se resolverá por completo.
“Los modelos de lenguajes grandes (LLM) actuales simplemente no imponen un límite de seguridad entre las instrucciones y los datos dentro de un mensaje”, dijo David C, director técnico de Investigación de Plataformas del NCSC. “Por lo tanto, las protecciones de diseño deben centrarse más en protecciones deterministas (no LLM) que limitan las acciones del sistema en lugar de simplemente tratar de evitar que contenido malicioso llegue al LLM”.