Resumen:El diseño rápido impacta significativamente la competencia moral y la alineación de seguridad de los grandes modelos de lenguaje (LLM), sin embargo, las comparaciones empíricas permanecen fragmentadas entre conjuntos de datos y esta URL http presente ProMoral-Bench, un punto de referencia unificado que evalúa 11 paradigmas de estímulo en cuatro familias de LLM.
Leer más →
Resumen: VerA opera en dos modos complementarios. VeRA-E (equivalente) reescribe problemas manteniendo intacta la lógica subyacente, lo que resulta útil para detectar la memorización frente al razonamiento genuino.
Leer más →
Resumen: No está claro si un desempeño sólido en el pronóstico refleja una comprensión temporal genuina o la capacidad de razonar en condiciones contextuales e impulsadas por eventos. Presentamos TemporalBench, un punto de referencia multidominio diseñado para evaluar el comportamiento de razonamiento temporal en entornos informativos cada vez más ricos.
Leer más →