Resumen: Los agentes de investigación profunda generan informes de calidad de analista, pero evaluarlos sigue siendo un desafío debido a la ausencia de una verdad única y la naturaleza multidimensional de la calidad de la investigación.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más como copilotos científicos, pero la evidencia sobre su papel en las matemáticas a nivel de investigación sigue siendo limitada, especialmente para los flujos de trabajo accesibles a investigadores individuales.
Leer más →
Resumen: Los modelos multimodales de lenguaje grande (MLLM), particularmente las variantes más pequeñas y desplegables, exhiben una deficiencia crítica en la comprensión de datos visuales temporales y procedimentales, un cuello de botella que dificulta su aplicación en la IA incorporada en el mundo real.
Leer más →