ProMoral-Bench: Evaluación de estrategias de estímulo para el razonamiento moral y la seguridad en LLM

Resumen:El diseño rápido impacta significativamente la competencia moral y la alineación de seguridad de los grandes modelos de lenguaje (LLM), sin embargo, las comparaciones empíricas permanecen fragmentadas entre conjuntos de datos y esta URL http presente ProMoral-Bench, un punto de referencia unificado que evalúa 11 paradigmas de estímulo en cuatro familias de LLM.

Leer más →

Comentarios desactivados en ProMoral-Bench: Evaluación de estrategias de estímulo para el razonamiento moral y la seguridad en LLM

TemporalBench: un punto de referencia para evaluar agentes basados ​​en LLM en tareas de series temporales contextuales y basadas en eventos

Resumen: No está claro si un desempeño sólido en el pronóstico refleja una comprensión temporal genuina o la capacidad de razonar en condiciones contextuales e impulsadas por eventos. Presentamos TemporalBench, un punto de referencia multidominio diseñado para evaluar el comportamiento de razonamiento temporal en entornos informativos cada vez más ricos.

Leer más →

Comentarios desactivados en TemporalBench: un punto de referencia para evaluar agentes basados ​​en LLM en tareas de series temporales contextuales y basadas en eventos

Fin del contenido

No hay más páginas por cargar