Remor: Generación automatizada de revisión por pares con razonamiento LLM y aprendizaje de refuerzo de objetivos múltiples

Resumen: Los sistemas de revisión por pares basados en IA tienden a producir sugerencias superficiales y sobrevaloradas en comparación con la retroalimentación humana. Aquí, evaluamos qué tan bien un razonamiento LLM capacitado con aprendizaje de refuerzo de objetivos múltiples (Remor) puede superar estas limitaciones. Comenzamos diseñando una función de recompensa múltiple que se alinea con la evaluación humana de las revisiones. Los aspectos están relacionados con la revisión en sí (por ejemplo, críticas, novedades) y la relación entre la revisión y el manuscrito (es decir, relevancia). Primero, realizamos un ajuste superior supervisado de Deepseek-R1-Distill-Qwen-7b usando Lora en Peerrt, un nuevo conjunto de datos de las revisiones de la conferencia de IA de alta calidad enriquecidas con rastros de razonamiento. Luego aplicamos la optimización de políticas relativas del grupo (GRPO) para entrenar dos modelos: Remor-H (con la recompensa alineada por humanos) y Remor-U (con una recompensa uniforme). Curiosamente, la recompensa alineada por humanos penaliza los aspectos típicamente asociados con revisiones fuertes, lo que lleva a Remor-U para producir retroalimentación cualitativamente más sustantiva. Nuestros resultados muestran que Remor-U y Remor-H logran más del doble de las recompensas promedio de las revisiones humanas, los sistemas de revisión AI multimodales de última generación no iniciales y las líneas de base de General Commercial LLM. Descubrimos que si bien las mejores revisiones de IA y humanos son comparables en calidad, Remor evita la larga cola de las revisiones humanas de baja calidad. Discutimos cómo el razonamiento es clave para lograr estas mejoras y liberar el conjunto de datos de recompensa de revisión por pares alineada por humanos (HPRR), el conjunto de datos enriquecidos con el razonamiento de la revisión por pares (PEERRT) y los modelos Remor, que creemos que pueden ayudar al progreso en el área.

Publicado Originalme en rss.arxiv.org El 19 de mayo de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

El Reino Unido enfrenta un déficit diario de agua de 5 mil millones para 2050 sin inversión de infraestructura urgente

EVOAGENTX: un marco automatizado para evolucionar flujos de trabajo de agente

Objetivos y la estructura de la experiencia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido