diciembre 17, 2025
ali-farhadi-ai2-1260x841.jpg
Un vídeo de demostración de Ai2 muestra a Molmo siguiendo una pelota específica, incluso si está fuera de cuadro, en este vídeo de gato. (Vídeo del Instituto Allen de IA)

¿Cuántos pingüinos hay en este video de animales? ¿Puedes rastrear la bola naranja en el video del gato? ¿Qué equipos juegan y quién marcó? ¿Dame instrucciones paso a paso de este video de cocina?

Estos son ejemplos de consultas que puede responder Molmo 2, una nueva familia de modelos de visión de IA de código abierto del Instituto Allen para IA (Ai2) que puede ver, rastrear, analizar y responder preguntas sobre videos: describir lo que está sucediendo y señalar exactamente dónde y cuándo.

Ai2 cita pruebas comparativas que muestran que Molmo 2 supera a los modelos de código abierto en análisis y seguimiento de vídeos cortos, y supera a sistemas cerrados como Gemini 3 de Google en seguimiento de vídeos, al tiempo que se acerca a su rendimiento en otras tareas de imágenes y vídeos.

En una serie de demostraciones para periodistas recientemente en las oficinas de Ai2 en Seattle, los investigadores mostraron cómo Molmo 2 puede analizar una variedad de videoclips cortos de diferentes maneras.

  • En un vídeo de fútbol, ​​los investigadores preguntaron qué error defensivo condujo a un gol. La modelo analizó la secuencia e indicó que no había logrado despejar el balón de manera efectiva.
  • En un clip de béisbol, la IA identificó los equipos (Angelinos y Marineros), el jugador que anotó (#55) y explicó cómo conocía al equipo local leyendo los uniformes y el logo del estadio.
  • Usando un video de cocina, el modelo devolvió una receta estructurada con ingredientes e instrucciones paso a paso, incluido el tiempo tomado del texto en pantalla.
  • Cuando se le pidió al modelo que contara cuántos giros realizó un bailarín, no solo dijo “cinco”, sino que proporcionó marcas de tiempo y coordenadas de píxeles para cada uno.
  • En una demostración de seguimiento, el modelo siguió a cuatro pingüinos mientras se movían en la imagen, manteniendo una identificación consistente para cada ave incluso cuando se superponían.
  • Cuando se le pidió al modelo que “rastreara el auto que termina pasando al auto número 13”, primero vio un clip completo de la carrera, entendió la consulta y luego regresó e identificó el vehículo correcto. Rastreó los autos que entraban y salían del cuadro.

Gran año para Ai2

Molmo 2, anunciado el martes por la mañana, culmina un año de hitos importantes para la organización sin fines de lucro con sede en Seattle, que ha conseguido seguidores leales en los círculos empresariales y académicos mediante el desarrollo de sistemas de inteligencia artificial totalmente abiertos. Su enfoque contrasta marcadamente con los enfoques cerrados o parcialmente abiertos de gigantes de la industria como OpenAI, Google, Microsoft y Meta.

Fundada en 2014 por el fallecido cofundador de Microsoft, Paul Allen, Ai2 recaudó este año 152 millones de dólares de NSF y Nvidia, participó en una iniciativa de investigación del cáncer de IA dirigida por Fred Hutch de Seattle y lanzó Olmo 3, un modelo de texto que compite con Meta, DeepSeek y otros.

Ai2 ha tenido más de 21 millones de descargas de sus modelos y casi 3 mil millones de consultas en sus sistemas este año, dijo Ali Farhadi, director ejecutivo de Ai2, durante una conferencia de prensa la semana pasada en la nueva sede del instituto en la costa norte del Lake Union en Seattle.

Ali Farhadi, director ejecutivo de Ai2. (Foto de archivo de GeekWire / Todd Bishop)

Como organización sin fines de lucro, Ai2 no busca competir comercialmente con los gigantes tecnológicos, sino que pretende avanzar en el estado del arte y hacer que estos avances estén disponibles gratuitamente.

El instituto ha lanzado modelos abiertos para texto (OLMo), imágenes (el Molmo original) y ahora vídeo, avanzando hacia lo que él llama un modelo unificado que tiene en cuenta todas las modalidades.

“Básicamente, estamos construyendo modelos que pueden competir con los mejores del mercado”, dijo Farhadi, pero de una manera completamente abierta, para una variedad de medios y situaciones diferentes.

Además de Molmo 2, Ai2 lanzó el lunes Bolmo, un modelo de texto experimental que procesa el lenguaje a nivel de caracteres en lugar de fragmentos de palabras, un cambio técnico que mejora el manejo de la ortografía, las palabras raras y el texto multilingüe.

Extensión para análisis de vídeo.

El recién lanzado Molmo 2 se centra en el vídeo. Para ser claro: el modelo Análisis Cuando creas un video, no se genera ningún video. Piense en comprender el metraje en lugar de crearlo.

El Molmo original, lanzado en septiembre pasado, podía analizar imágenes estáticas con una precisión que rivalizaba con la de los competidores de código cerrado. Se introdujo una función de “punto” que hizo posible identificar objetos específicos dentro de un marco. Molmo 2 ofrece el mismo enfoque para la comprensión de vídeos y múltiples imágenes.

El concepto no es nuevo. Gemini de Google, GPT-4o de OpenAI y Perception LM de Meta pueden manejar vídeo. Pero de acuerdo con la misión más amplia de Ai2 como instituto sin fines de lucro, Molmo 2 es completamente abierto y los pesos de sus modelos, códigos de entrenamiento y datos de entrenamiento se hacen públicos.

Esto es diferente de los modelos de “peso abierto”, que lanzan el producto final pero no la receta original, y un marcado contraste con los sistemas cerrados de Google, OpenAI y otros.

La distinción no es sólo un principio académico. El enfoque de Ai2 significa que los desarrolladores pueden rastrear el comportamiento de un modelo hasta sus datos de entrenamiento, adaptarlo para usos específicos y evitar quedar atrapados en el ecosistema de un proveedor.

Ai2 también valora la eficiencia. Por ejemplo, Metas Perception LM se entrenó en 72,5 millones de vídeos. Molmo 2 utilizó alrededor de 9 millones y se basó en anotaciones humanas de alta calidad.

El resultado, según Ai2, es un modelo más pequeño y más eficiente que supera a su propio modelo mucho más grande del año pasado y se acerca a los sistemas comerciales de Google y OpenAI, al mismo tiempo que es lo suficientemente simple como para ejecutarse en una sola computadora.

Cuando el Molmo original introdujo su función de señalización el año pasado, que permitía al modelo identificar objetos específicos en una imagen, los modelos de la competencia adoptaron rápidamente esta función.

“Sabemos que han adoptado nuestros datos porque funcionan tan bien como nosotros”, dijo Ranjay Krishna, quien dirige el equipo de visión por computadora de Ai2. Krishna también es profesor asistente en la Universidad de Washington y varios de sus estudiantes de posgrado también están trabajando en el proyecto.

Farhadi presenta la dinámica competitiva de manera diferente a la mayoría de la industria.

“Si realmente hicieras código abierto, cambiaría la palabra Competencia A Cooperación” dijo. “Porque no hay razón para competir. Todo está ahí afuera. No es necesario realizar ingeniería inversa. No es necesario recrearlo. Simplemente cógelo, constrúyelo y haz lo siguiente. Y nos encanta cuando la gente hace eso”.

Un trabajo en progreso

Al mismo tiempo, Molmo 2 tiene algunas limitaciones claras. La capacidad de seguimiento (seguimiento de objetos a través de fotogramas) es actualmente de unos 10 elementos. Pídale que rastree una multitud o una carretera muy transitada y el modelo no podrá seguir el ritmo.

“Esta es una capacidad muy, muy nueva y es tan experimental que estamos empezando con algo muy pequeño”, dijo Krishna. “No hay límites tecnológicos para esto, sólo se requieren más datos y más ejemplos de escenas realmente abarrotadas”.

Incluso los vídeos largos siguen siendo un desafío. El modelo funciona bien en clips cortos, pero analizar grabaciones más largas requiere una potencia de procesamiento que Ai2 aún no está lista para gastar. En el parque infantil, que se lanza en paralelo a Molmo 2, los vídeos subidos están limitados a 15 segundos.

Y a diferencia de algunos sistemas comerciales, Molmo 2 no maneja transmisiones de video en vivo. Analiza las grabaciones posteriormente. Krishna dijo que el equipo está explorando capacidades de transmisión para aplicaciones como la robótica que requieren un modelo para responder a las observaciones en tiempo real, pero ese trabajo aún se encuentra en sus primeras etapas.

“Hay métodos que la gente ha ideado para procesar vídeos a lo largo del tiempo y transmitirlos”, dijo Krishna. “Esas son direcciones que estamos explorando a continuación”.

Molmo 2 está disponible hoy en Hugging Face y Ai2's Playground.

About The Author