Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

Resumen: Los avances recientes en modelos de lenguaje grande multimodal (MLLM), particularmente a través del aprendizaje de refuerzo con recompensas verificables (RLVR), han mejorado significativamente sus habilidades de razonamiento. Sin embargo, una brecha crítica persiste: estos modelos luchan con interacciones espaciales dinámicas, una capacidad esencial para aplicaciones del mundo real.

Leer más →

Comentarios desactivados en Razonamiento M2: empoderamiento de MLLM con razonamiento general y espacial unificado

Leanabell-Prover-V2: razonamiento integrado por el verificador para el teorema formal de prueba a través del aprendizaje de refuerzo

Resumen: Presentamos nuestro Leanabell-Prover-V2, un modelos de lenguaje grande 7B (LLMS) que puede producir pruebas formales del teorema en Lean 4, con una larga cadena de pensamientos (COT) integrada por el verificador. Después de nuestro trabajo anterior Leanabell-Prover-V1, continuamos optando por postrar a los modelos de Prover fuertes existentes para una mayor mejora del rendimiento.

Leer más →

Comentarios desactivados en Leanabell-Prover-V2: razonamiento integrado por el verificador para el teorema formal de prueba a través del aprendizaje de refuerzo

Fin del contenido

No hay más páginas por cargar