Resumen:Si bien los LLM tienen un potencial significativo para transformar la investigación científica, abogamos por su uso para aumentar y empoderar a los investigadores en lugar de automatizar la investigación sin supervisión humana. Con este fin, estudiamos la generación de retroalimentación constructiva, la tarea de producir retroalimentación específica y procesable que ayude a los autores a mejorar tanto su investigación como su presentación. En este trabajo, operacionalizamos la efectividad de la retroalimentación a lo largo de dos ejes centrados en el autor: la validez y la acción del autor. Primero seleccionamos GoodPoint-ICLR, un conjunto de datos de 19.000 artículos de ICLR con comentarios de los revisores anotados en ambas dimensiones utilizando las respuestas de los autores. Sobre esta base, presentamos GoodPoint, una receta de capacitación que aprovecha las señales de éxito de las respuestas de los autores mediante el ajuste de comentarios válidos y procesables, junto con la optimización de preferencias en pares de preferencias reales y sintéticas. Nuestra evaluación de un punto de referencia de 1.2K artículos ICLR muestra que un Qwen3-8B entrenado por GoodPoint mejora la tasa de éxito prevista en un 83,7% con respecto al modelo base y establece un nuevo estado del arte entre los LLM de tamaño similar en la comparación de retroalimentación en un conjunto de retroalimentación humana dorada, superando incluso a Gemini-3-flash en precisión. Validamos aún más estos hallazgos a través de un estudio humano experto, lo que demuestra que GoodPoint ofrece constantemente un mayor valor práctico según lo perciben los autores.
Publicado originalmente en export.arxiv.org el 14 de abril de 2026.
Ver fuente original
