Los investigadores de ciberseguridad han descubierto vulnerabilidades críticas de ejecución remota de código que afectan a los principales motores de inferencia de inteligencia artificial (IA), incluidos los de Meta, Nvidia, Microsoft y proyectos de código abierto PyTorch como vLLM y SGLang.
“Todas estas vulnerabilidades provienen de la misma causa raíz: el uso inseguro pasado por alto de ZeroMQ (ZMQ) y la deserialización Pickle de Python”, dijo Avi Lumelsky, investigador de Oligo Security, en un informe publicado el jueves.
En esencia, el problema radica en el llamado patrón SombraMQdonde la lógica de deserialización insegura se ha extendido a múltiples proyectos debido a la reutilización del código.
La causa principal es una vulnerabilidad en el marco Llama Large Language Model (LLM) de Meta (CVE-2024-50050, puntuación CVSS: 6.3/9.3), que la compañía parchó en octubre pasado. Específicamente, esto implicó el uso del método recv_pyobj() de ZeroMQ para deserializar los datos entrantes usando el módulo Pickle de Python.
Combinado con el hecho de que el marco expuso el socket ZeroMQ a través de la red, esto abrió la puerta a un escenario en el que un atacante podría ejecutar código arbitrario enviando datos maliciosos para su deserialización. El problema también se solucionó en la biblioteca de Python pyzmq.

Desde entonces, Oligo ha descubierto que el mismo patrón se repite en otros marcos de inferencia como NVIDIA TensorRT-LLM, Microsoft Sarathi-Serve, Modular Max Server, vLLM y SGLang.
“Todos contenían patrones inseguros casi idénticos: deserialización de pickle sobre sockets TCP ZMQ no autenticados”, dijo Lumelsky. “Diferentes mantenedores y proyectos gestionados por diferentes empresas: todos cometieron el mismo error”.
Cuando Oligo investigó el origen del problema, descubrió que, al menos en algunos casos, se debía al copiado directo del código. Por ejemplo, el archivo vulnerable en SGLang indica que fue personalizado por vLLM, mientras que Modular Max Server adoptó la misma lógica tanto de vLLM como de SGLang, perpetuando efectivamente la misma falla en todas las bases de código.
A los problemas se les asignaron los siguientes identificadores:
- CVE-2025-30165 (Puntuación CVSS: 8,0) – vLLM (aunque no se resolvió, el problema se resolvió cambiando al motor V1 de forma predeterminada).
- CVE-2025-23254 (Puntuación CVSS: 8.8) – NVIDIA TensorRT-LLM (corregido en la versión 0.18.2)
- CVE-2025-60455 (Puntuación CVSS: N/A) – Servidor Modular Max (fijo)
- Sarathi Serve (Permanece sin parchear)
- SGLang (correcciones incompletas implementadas)
Dado que los motores de inferencia actúan como un componente crítico dentro de las infraestructuras de IA, un compromiso exitoso de un solo nodo podría permitir a un atacante ejecutar código arbitrario en el clúster, escalar privilegios, cometer robo de modelos e incluso eliminar cargas útiles maliciosas, como mineros de criptomonedas, para obtener ganancias financieras.
“Los proyectos avanzan a un ritmo increíble y es común adoptar componentes arquitectónicos de colegas”, dijo Lumelsky. “Pero cuando la reutilización de código implica patrones inseguros, las consecuencias rápidamente se manifiestan”.
La revelación se produce después de que un nuevo informe de la plataforma de seguridad de inteligencia artificial Knostic descubriera que es posible comprometer el nuevo navegador integrado de Cursor mediante técnicas de inyección de JavaScript, sin mencionar el uso de una extensión maliciosa para facilitar la inyección de JavaScript y tomar el control de la estación de trabajo del desarrollador.

El primer ataque implica registrar un servidor de protocolo de contexto modelo (MCP) local fraudulento que elude los controles de Cursor para permitir que un atacante reemplace las páginas de inicio de sesión en el navegador con una página falsa que recopila las credenciales de inicio de sesión y las reenvía a un servidor remoto bajo su control.
“Una vez que un usuario descargaba el servidor MCP y lo ejecutaba usando un archivo mcp.json en Cursor, inyectaba código en el navegador de Cursor que llevaba al usuario a una página de inicio de sesión falsa que robaba sus credenciales y las enviaba a un servidor remoto”, dijo el investigador de seguridad Dor Munis.
Dado que el editor de código fuente impulsado por IA es esencialmente una bifurcación de Visual Studio Code, un actor malintencionado también podría crear una extensión maliciosa para inyectar JavaScript en el IDE en ejecución para realizar acciones arbitrarias, incluido marcar extensiones Open VSX inofensivas como “maliciosas”.
“JavaScript que se ejecuta en el intérprete Node.js, ya sea introducido por una extensión, un servidor MCP o un mensaje o regla creados, hereda inmediatamente los privilegios del IDE: acceso completo al sistema de archivos, la capacidad de modificar o reemplazar las características del IDE (incluidas las extensiones instaladas) y la capacidad de conservar el código que se vuelve a agregar después de un reinicio”, dijo la compañía.
“Una vez que la ejecución a nivel de intérprete está disponible, un atacante puede convertir el IDE en una plataforma de exfiltración y distribución de malware”.
Para abordar estos riesgos, es importante que los usuarios deshabiliten las funciones de ejecución automática en sus IDE, revisen las extensiones, instalen servidores MCP de desarrolladores y repositorios confiables, verifiquen a qué datos y API acceden los servidores, usen claves API con los permisos mínimos requeridos y revisen el código fuente del servidor MCP para integraciones críticas.