Mejora del rendimiento del LLM mediante el ajuste en línea de Black-Box: un caso para agregar especificaciones del sistema a hojas informativas para una IA confiable

Resumen: En este artículo, presentamos un novedoso controlador en línea de caja negra que utiliza solo mediciones de extremo a extremo en segmentos cortos, sin instrumentación interna, y escalada para maximizar el buen rendimiento, definido como el rendimiento de las solicitudes que satisfacen el objetivo de nivel de servicio.

Leer más →

Comentarios desactivados en Mejora del rendimiento del LLM mediante el ajuste en línea de Black-Box: un caso para agregar especificaciones del sistema a hojas informativas para una IA confiable

FinRule-Bench: un punto de referencia para el razonamiento conjunto sobre tablas y principios financieros

Resumen: Los modelos de lenguaje grande (LLM) se aplican cada vez más al análisis financiero, sin embargo, su capacidad para auditar estados financieros estructurados bajo principios contables explícitos sigue siendo poco explorada.

Leer más →

Comentarios desactivados en FinRule-Bench: un punto de referencia para el razonamiento conjunto sobre tablas y principios financieros

RewardHackingAgents: Evaluación comparativa de integridad para agentes de ingeniería de aprendizaje automático LLM

Resumen: Los agentes LLM realizan cada vez más tareas de ingeniería de ML de un extremo a otro donde el éxito se juzga mediante una única métrica de prueba escalar. Esto crea una vulnerabilidad estructural: un agente puede aumentar la puntuación reportada comprometiendo el proceso de evaluación en lugar de mejorar el modelo.

Leer más →

Comentarios desactivados en RewardHackingAgents: Evaluación comparativa de integridad para agentes de ingeniería de aprendizaje automático LLM

Fin del contenido

No hay más páginas por cargar