ReEfBench: cuantificación de la eficiencia del razonamiento de los LLM

Resumen: La escala en el tiempo de prueba ha permitido que los modelos de lenguajes grandes (LLM) aborden el razonamiento complejo, sin embargo, las limitaciones de la evaluación actual de la cadena de pensamiento (CoT) oscurecen si las mejoras en el desempeño se derivan de un razonamiento genuino o de una mera verbosidad.

Leer más →

Comentarios desactivados en ReEfBench: cuantificación de la eficiencia del razonamiento de los LLM

STAR-S: Mejora de la alineación de la seguridad mediante el razonamiento autodidacta sobre las reglas de seguridad

Resumen:La defensa contra ataques de jailbreak es crucial para la implementación segura de modelos de lenguaje grande (LLM). Investigaciones recientes han intentado mejorar la seguridad entrenando modelos para razonar sobre las reglas de seguridad antes de responder.

Leer más →

Comentarios desactivados en STAR-S: Mejora de la alineación de la seguridad mediante el razonamiento autodidacta sobre las reglas de seguridad

Cálculo de varianza para el recuento de modelos ponderados con enfoque de compilación de conocimientos

Resumen: Una de las cuestiones más importantes en la recopilación de conocimientos es el recuento de modelos ponderados (WMC), que se ha aplicado a la inferencia probabilística en varios modelos, como las redes bayesianas.

Leer más →

Comentarios desactivados en Cálculo de varianza para el recuento de modelos ponderados con enfoque de compilación de conocimientos

Fin del contenido

No hay más páginas por cargar