Jugando con el juez: una cadena de pensamiento infiel puede socavar la evaluación del agente

Resumen: Los modelos de lenguaje grande (LLM) se utilizan cada vez más como jueces para evaluar el desempeño de los agentes, particularmente en entornos no verificables donde los juicios se basan en las trayectorias de los agentes, incluido el razonamiento de cadena de pensamiento (CoT).

Leer más →

Comentarios desactivados en Jugando con el juez: una cadena de pensamiento infiel puede socavar la evaluación del agente

IB-GRPO: Alinear la recomendación de la ruta de aprendizaje basada en LLM con los objetivos educativos a través de la optimización de políticas relativas al grupo basada en indicadores

Resumen:Learning Path Recommendation (LPR) tiene como objetivo generar secuencias personalizadas de elementos de aprendizaje que maximicen el efecto de aprendizaje a largo plazo respetando los principios pedagógicos y las limitaciones operativas.

Leer más →

Comentarios desactivados en IB-GRPO: Alinear la recomendación de la ruta de aprendizaje basada en LLM con los objetivos educativos a través de la optimización de políticas relativas al grupo basada en indicadores

Modelos de lenguaje local para la anonimización adaptativa consciente del contexto de texto confidencial

Resumen: La investigación cualitativa a menudo contiene detalles personales, contextuales y organizacionales que plantean riesgos para la privacidad si no se manejan adecuadamente. La anonimización manual requiere mucho tiempo, es inconsistente y con frecuencia omite identificadores críticos.

Leer más →

Comentarios desactivados en Modelos de lenguaje local para la anonimización adaptativa consciente del contexto de texto confidencial

Fin del contenido

No hay más páginas por cargar