Durante décadas, la inteligencia artificial se ha evaluado mediante la cuestión de si las máquinas superan a los humanos. Desde el ajedrez hasta las matemáticas avanzadas, desde la codificación hasta la redacción de ensayos, el rendimiento de los modelos y aplicaciones de IA se compara con el de humanos individuales que completan tareas.
Leer más →
Resumen:La fase de preentrenamiento fundamental determina el techo de capacidad de un modelo, ya que el post-entrenamiento lucha por superar las bases de capacidad establecidas durante el preentrenamiento, pero sigue estando críticamente subexplorada.
Leer más →
Resumen: Los modelos de lenguaje grande (LLM) han revolucionado las tareas de razonamiento médico, sin embargo, los sistemas de agente único a menudo fallan en problemas complejos e interdisciplinarios que requieren un manejo sólido de la incertidumbre y la evidencia contradictoria.
Leer más →