Han pasado casi dos años desde que el director ejecutivo de Microsoft, Satya Nadella, predijo que la IA reemplazaría el trabajo basado en el conocimiento: los trabajos administrativos de abogados, banqueros de inversión, bibliotecarios, contadores, trabajadores de TI y otros.
Pero a pesar del enorme progreso que han logrado los modelos básicos, el cambio en el trabajo del conocimiento avanza lentamente. Los modelos son expertos en investigación en profundidad y planificación de agentes, pero por alguna razón, la mayor parte del trabajo de oficina se ha mantenido relativamente intacto.
Es uno de los mayores misterios de la IA y, gracias a una nueva investigación del gigante de datos de entrenamiento Mercor, finalmente estamos obteniendo algunas respuestas.
El nuevo estudio examina cómo se desempeñan los principales modelos de IA cuando realizan tareas de oficina reales en consultoría, banca de inversión y derecho. El resultado es un nuevo punto de referencia llamado Apex Agents, y hasta ahora todos los laboratorios de IA han recibido una calificación de “suspenso”. Ante las solicitudes de verdaderos profesionales, incluso las mejores modelos tuvieron dificultades para responder correctamente a más de una cuarta parte de las preguntas. En la gran mayoría de los casos, el modelo dio una respuesta incorrecta o ninguna respuesta.
Según el investigador Brendan Foody, que trabajó en el estudio, el mayor obstáculo de los modelos fue el seguimiento de información en múltiples dominios, algo que es esencial para la mayor parte del trabajo de conocimiento realizado por los humanos.
“Uno de los grandes cambios en este punto de referencia es que construimos todo el entorno basándose en servicios profesionales reales”, dijo Foody a Techcrunch. “La forma en que hacemos nuestro trabajo no es con una sola persona que nos brinde todo el contexto en un solo lugar. En la vida real, trabajas con Slack y Google Drive y todas estas otras herramientas”. En muchos modelos de IA de agentes, este tipo de razonamiento multidominio sigue siendo una coincidencia.
Todos los escenarios fueron creados por verdaderos profesionales del mercado experto de Mercor, quienes formularon las preguntas y establecieron el estándar para una respuesta exitosa. Una mirada a las preguntas publicadas públicamente en Hugging Face da una idea de cuán complejas pueden llegar a ser las tareas.
Evento tecnológico
san francisco
|
13 al 15 de octubre de 2026
Una pregunta en la sección de Derecho pregunta:
Durante los primeros 48 minutos de la interrupción de la producción en la UE, el equipo técnico de Northstar exportó uno o dos conjuntos de registros de eventos de producción en la UE que contenían datos personales al proveedor de análisis de EE. UU. Según sus propias políticas, ¿puede Northstar considerar razonablemente que una o dos exportaciones de troncos cumplen lo dispuesto en el artículo 49?
La respuesta correcta es sí, pero llegar allí requiere una revisión en profundidad de las propias políticas de la empresa, así como de las leyes de protección de datos pertinentes de la UE.
Esto podría desconcertar incluso a una persona bien informada, pero los investigadores intentaron modelar el trabajo de los expertos en el campo. Si un LLM puede responder de manera confiable a estas preguntas, podría reemplazar efectivamente a muchos de los abogados que ejercen hoy en día. “Creo que este es probablemente el tema más importante en economía”, dijo Foody a TechCrunch. “La escala refleja muy bien el trabajo real que realizan estas personas”.
OpenAI también ha intentado medir las habilidades profesionales con su punto de referencia GDPVal, pero la prueba de Apex Agents difiere en aspectos importantes. Mientras que GDPVal evalúa el conocimiento general en una amplia gama de profesiones, el punto de referencia de Apex Agents mide la capacidad del sistema para realizar tareas sostenidas en un grupo reducido de profesiones de alto valor. El resultado es más difícil para los modelos, pero también depende más de si estas tareas pueden automatizarse.
Si bien ninguno de los modelos demostró estar preparado para asumir el papel de banquero de inversión, algunos estaban claramente más cerca de ese objetivo. Gemini 3 Flash tuvo el mejor rendimiento con una precisión de un solo disparo del 24 %, seguido de cerca por GPT-5.2 con un 23 %. Entre ellos, Opus 4.5, Gemini 3 Pro y GPT-5 lograron cada uno alrededor del 18%.
Incluso si los resultados iniciales son inadecuados, el campo de la IA ha superado repetidamente puntos de referencia exigentes en el pasado. Ahora que la prueba de Apex es pública, es un desafío abierto para los laboratorios de IA que creen que pueden hacerlo mejor, algo que Foody espera hacer en los próximos meses.
“Está mejorando muy rápidamente”, dijo a TechCrunch. “En este momento es justo decir que es como si un pasante lo hiciera bien una cuarta parte de las veces, pero el año pasado fue el pasante quien lo hizo bien cinco o 10 por ciento de las veces. Ese tipo de mejora puede tener un impacto muy rápido año tras año”.
)