Cualquiera puede crear vídeos con IA, pero muchas herramientas de creación de vídeos con IA carecen de soporte para audio. Mirelo desarrolla una IA que añade bandas sonoras que coinciden con la acción del vídeo.
A principios de este año, la startup Mirelo, con sede en Berlín, lanzó SFX v1.5, un modelo de inteligencia artificial que interpreta videos para agregar efectos de sonido sincronizados (SFX).
Esto llamó la atención de los capitalistas de riesgo que se están preparando para una revolución generativa de la IA en los juegos. La startup alemana de dos años ha recaudado una ronda inicial de 41 millones de dólares liderada por Index Ventures y Andreessen Horowitz, según ha sabido TechCrunch en exclusiva.
Este nuevo capital ayudará a Mirelo a competir más eficazmente en su categoría emergente. Mientras todavía estaba en modo oculto y los recursos eran limitados, grandes empresas como Sony y Tencent lanzaron modelos de vídeo a SFX. Esto también se aplica a Kling AI de China, que forma parte de Kuaishou, y a ElevenLabs, que también es compatible con a16z.
Si bien Mirelo ya se diferencia de ellos por su enfoque más limitado, para poder superar estos modelos a largo plazo, la startup tendrá que contratar empleados adicionales. En general, la startup espera que la plantilla de su equipo de 10 personas “se duplique, si no triplique” para finales del próximo año, dijo a TechCrunch el director ejecutivo y cofundador de Mirelo, CJ Simon-Gabriel.
Estas nuevas contrataciones respaldarán la investigación y el desarrollo, el producto y la estrategia de comercialización de Mirelo. La startup lanzó sus modelos en Fal.ai y Replicate y espera que el uso de API represente la mayor parte de sus ingresos en el corto plazo, dijo Simon-Gabriel. Pero también está invirtiendo en ampliar su espacio de trabajo para creativos, Mirelo Studio, que eventualmente podría permitir un uso totalmente profesional.
Mientras Mirelo se prepara para escalar, la startup y sus inversores también anticipan las preocupaciones sobre los datos de capacitación que han afectado a otras empresas de IA generativa. Según Georgia Stevenson, quien dirigió las inversiones de Index, Mirelo basó sus modelos en bibliotecas de sonido públicas y compró y firmó asociaciones de reparto de ingresos que respetan los derechos de los artistas.
Es una tensión inherente a las herramientas de IA generativa, pero Mirelo no está desplazando a los músicos y diseñadores de sonido, al menos no todavía. Con un modelo freemium que incluye un plan recomendado para YouTubers con un precio de 20 € al mes (aproximadamente 23,50 dólares), la startup se dirige principalmente a aficionados y prosumidores que desean activar el sonido de los vídeos generados por IA.
Según Simon-Gabriel, los YouTubers no pueden aprovechar plenamente este nuevo potencial sin audio.
“George Lucas dijo que el sonido es el 50% de la experiencia cinematográfica. Eso no es una exageración”, afirmó. “En todo caso, eso es quedarse corto. Puedes capturar exactamente las mismas imágenes y el sonido crea una atmósfera completamente diferente dependiendo del sonido y la música que pongas”.
Él y su cofundador Florian Wenzel son investigadores de IA y músicos, y la startup tiene la generación de música con IA en su hoja de ruta. Pero Mirelo ve un mayor atractivo en los efectos de sonido, en parte porque se están realizando menos investigaciones que en otras áreas de la IA, dijo Simon-Gabriel.
“Es más fácil construir aquí un foso real y luego utilizarlo”, señaló.
Esto podría dar sus frutos para Mirelo. Simon-Gabriel se negó a revelar su nueva valoración, pero dijo que aumentó “muy significativamente” en comparación con la ronda previa a la semilla no revelada anteriormente. Esta ronda anterior fue liderada por Atlantic, con sede en Berlín, que también participó en la nueva financiación, lo que elevó los ingresos totales de Mirelo a 44 millones de dólares y ayudó a cerrar la brecha de recursos.
La startup también cuenta con el respaldo de ángeles que podrían dar credibilidad a su tecnología y abrir nuevas puertas, incluido el director ejecutivo de Mistral, Arthur Mensch, el director científico de Hugging Face, Thomas Wolf, el cofundador de Fal.ai, Burkay Gur, y otros.
Aún así, el equipo es consciente de que es posible que los vídeos generados por IA no permanezcan en silencio por mucho tiempo.
Por ejemplo, el generador de vídeo de Gemini ahora incluye bandas sonoras basadas en el modelo de vídeo a audio Veo 3.1 de DeepMind. Pero en todo caso, Simon-Gabriel parece reivindicado. “Ahora, de repente, la gente se da cuenta: 'Oh, tal vez deberíamos agregar sonido'. Pero, por supuesto, deberías agregar algunos. Es un poco como cine mudo versus cine sonoro, ¿verdad? ¡Realmente hace una gran diferencia!