Aclarar antes del razonamiento: un prover con contexto estructural

Resumen: En este trabajo, investigamos si mejorar la claridad de la tarea puede mejorar la capacidad de razonamiento de los modelos de idiomas grandes, centrándose en la prueba de teorema en Coq. Introducimos una métrica de nivel de concepto para evaluar la claridad de las tareas y mostramos que agregar un contexto semántico estructurado a la entrada estándar utilizada por los LLM modernos, conduce a una mejora de 1.85 $ veces $ en puntaje de claridad (44.5 %~ $ rectarrow $ ~ 82.3 %). Usando el modelo de uso general Texttt {Deepseek-v3}, nuestro enfoque conduce a una mejora de 2.1 $ veces $ en el éxito de prueba (21.8 %~ $ rectarrow $ ~ 45.8 %) y supera el estado anterior de estado de arte texttt {gráfico {gráfico {33.2 %). Evaluamos esto en 1.386 teoremas muestreados aleatoriamente de 15 paquetes de COQ estándar, siguiendo el mismo protocolo de evaluación que texttt {Graph2tac}. Además, el ajuste de modelos más pequeños en nuestros datos estructurados puede lograr un rendimiento aún mayor (48.6 %). Nuestro método utiliza el desarrollo del concepto selectivo para enriquecer las descripciones de tareas y emplea una arquitectura ejecutora de planificador. Estos hallazgos destacan el valor de las representaciones de tareas estructuradas para poner en marcha la brecha entre la comprensión y el razonamiento.

Publicado Originalme en export.arxiv.org El 3 de julio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Revisando la detección de tartamudeo basada en reglas: un análisis exhaustivo de modelos interpretables para aplicaciones clínicas

Agente como herramienta: un estudio sobre la toma de decisiones jerárquicas con aprendizaje de refuerzo

Eolo y Thales: allanando el camino para la banda ancha de alta velocidad en Italia

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido