DeltaLogic: Las ediciones mínimas de premisas revelan fallas en la revisión de creencias en modelos de razonamiento lógico

Resumen: Los puntos de referencia de razonamiento generalmente evalúan si un modelo deriva la respuesta correcta a partir de un conjunto de premisas fijas, pero subestiman una capacidad estrechamente relacionada que importa en entornos dinámicos: la revisión de creencias bajo un cambio mínimo de evidencia.

Leer más →

Comentarios desactivados en DeltaLogic: Las ediciones mínimas de premisas revelan fallas en la revisión de creencias en modelos de razonamiento lógico

GrandCode: alcanzar el nivel de gran maestro en programación competitiva mediante el aprendizaje por refuerzo agente

Resumen:La programación competitiva sigue siendo uno de los últimos bastiones humanos en la codificación contra la IA. El mejor sistema de IA hasta la fecha todavía tiene un rendimiento inferior al de la mejor programación competitiva humana: el mejor resultado más reciente, Gemini~3 Deep Think de Google, alcanzó el octavo lugar incluso sin ser evaluado en condiciones de competencia en vivo.

Leer más →

Comentarios desactivados en GrandCode: alcanzar el nivel de gran maestro en programación competitiva mediante el aprendizaje por refuerzo agente

Tengamos una conversación: diseño y evaluación de agentes LLM para la optimización interactiva

Resumen:La optimización se trata tanto de modelar el problema correcto como de resolverlo. Identificar los objetivos, las limitaciones y las compensaciones correctas exige una amplia interacción entre los investigadores y las partes interesadas.

Leer más →

Comentarios desactivados en Tengamos una conversación: diseño y evaluación de agentes LLM para la optimización interactiva

Fin del contenido

No hay más páginas por cargar