Resumen: Los modelos de lenguaje grande se utilizan cada vez más para evaluar otros modelos, pero estos juicios generalmente carecen de toda representación de confianza.
Leer más →
Resumen:A medida que los grandes modelos de lenguaje se convierten en componentes de sistemas agentes más grandes, la confiabilidad de la evaluación se vuelve crítica: los subagentes poco confiables introducen fragilidad en el comportamiento del sistema posterior.
Leer más →
Resumen:La rápida integración de la IA generativa en la escritura académica ha provocado respuestas políticas generalizadas por parte de revistas y editores. Sin embargo, la eficacia de estas políticas sigue sin estar clara. Aquí, analizamos 5.114 revistas y más de 5,2 millones de artículos para evaluar el impacto en el mundo real de las pautas de uso de la IA.
Leer más →