Estabilización de la capacitación en integración de rúbricas mediante la normalización de ventajas desacopladas

Resumen: Proponemos la optimización de políticas conscientes de los procesos (PAPO), un método que integra la evaluación a nivel de proceso en la optimización de políticas relativas al grupo (GRPO) a través de la normalización de ventajas desacopladas, para abordar dos limitaciones de los diseños de recompensas existentes.

Leer más →

Comentarios desactivados en Estabilización de la capacitación en integración de rúbricas mediante la normalización de ventajas desacopladas

CADSmith: Generación CAD multiagente con validación geométrica programática

Resumen: Los métodos existentes para la generación de texto a CAD operan en una sola pasada sin verificación geométrica o dependen de retroalimentación visual con pérdidas que no pueden resolver errores dimensionales. Presentamos CADSmith, un canal multiagente que genera código CadQuery a partir de lenguaje natural.

Leer más →

Comentarios desactivados en CADSmith: Generación CAD multiagente con validación geométrica programática

AIRA_2: Superar los obstáculos en los agentes de investigación de IA

Resumen:La investigación existente ha identificado tres cuellos de botella estructurales en el rendimiento de los agentes de investigación de IA: (1) la ejecución sincrónica de una sola GPU restringe el rendimiento de la muestra, lo que limita el beneficio de la búsqueda; (2) una brecha de generalización donde la selección basada en validación hace que el rendimiento se degrade en horizontes de b

Leer más →

Comentarios desactivados en AIRA_2: Superar los obstáculos en los agentes de investigación de IA

Fin del contenido

No hay más páginas por cargar