Resumen: evaluar efectivamente a los agentes de investigación profundas que buscan autónomas en la web, analizan información y generan informes sigue siendo un desafío importante, particularmente cuando se trata de evaluar informes largos y dar comentarios detallados sobre sus pasos intermedios.
Leer más →
Resumen: Métodos: Diez dermatólogos, una IA generalista (GPT-4O) y una IA de razonamiento (O3) generaron planes de tratamiento para cinco casos de dermatología complejos. Los diez expertos humanos anónimos en dos fases obtuvieron puntajes en dos fases: 1) por los diez expertos humanos, y 2) por un juez de IA superior (Gemini 2.5 Pro) utilizando una rúbrica idéntica.
Leer más →
Resumen: Presentamos OLG ++, una extensión semántica del gráfico lógico de obligación (OLG) para modelar reglas regulatorias y legales en contextos municipales e interjurisdiccionales.
Leer más →