Comparador de investigación profunda: una plataforma para anotaciones humanas de grano fino de agentes de investigación profunda

Resumen: evaluar efectivamente a los agentes de investigación profundas que buscan autónomas en la web, analizan información y generan informes sigue siendo un desafío importante, particularmente cuando se trata de evaluar informes largos y dar comentarios detallados sobre sus pasos intermedios.

Leer más →

Comentarios desactivados en Comparador de investigación profunda: una plataforma para anotaciones humanas de grano fino de agentes de investigación profunda

Realidades divergentes: un análisis comparativo de expertos humanos versus generación basada en inteligencia artificial y evaluación de planes de tratamiento en dermatología

Resumen: Métodos: Diez dermatólogos, una IA generalista (GPT-4O) y una IA de razonamiento (O3) generaron planes de tratamiento para cinco casos de dermatología complejos. Los diez expertos humanos anónimos en dos fases obtuvieron puntajes en dos fases: 1) por los diez expertos humanos, y 2) por un juez de IA superior (Gemini 2.5 Pro) utilizando una rúbrica idéntica.

Leer más →

Comentarios desactivados en Realidades divergentes: un análisis comparativo de expertos humanos versus generación basada en inteligencia artificial y evaluación de planes de tratamiento en dermatología

Fin del contenido

No hay más páginas por cargar