Resumen: Proponemos la optimización de políticas conscientes de los procesos (PAPO), un método que integra la evaluación a nivel de proceso en la optimización de políticas relativas al grupo (GRPO) a través de la normalización de ventajas desacopladas, para abordar dos limitaciones de los diseños de recompensas existentes.
Leer más →
Resumen: Los métodos existentes para la generación de texto a CAD operan en una sola pasada sin verificación geométrica o dependen de retroalimentación visual con pérdidas que no pueden resolver errores dimensionales. Presentamos CADSmith, un canal multiagente que genera código CadQuery a partir de lenguaje natural.
Leer más →
Resumen:La investigación existente ha identificado tres cuellos de botella estructurales en el rendimiento de los agentes de investigación de IA: (1) la ejecución sincrónica de una sola GPU restringe el rendimiento de la muestra, lo que limita el beneficio de la búsqueda; (2) una brecha de generalización donde la selección basada en validación hace que el rendimiento se degrade en horizontes de b
Leer más →