Resumen: Los puntos de referencia de razonamiento generalmente evalúan si un modelo deriva la respuesta correcta a partir de un conjunto de premisas fijas, pero subestiman una capacidad estrechamente relacionada que importa en entornos dinámicos: la revisión de creencias bajo un cambio mínimo de evidencia.
Leer más →
Resumen:La programación competitiva sigue siendo uno de los últimos bastiones humanos en la codificación contra la IA. El mejor sistema de IA hasta la fecha todavía tiene un rendimiento inferior al de la mejor programación competitiva humana: el mejor resultado más reciente, Gemini~3 Deep Think de Google, alcanzó el octavo lugar incluso sin ser evaluado en condiciones de competencia en vivo.
Leer más →
Resumen:La optimización se trata tanto de modelar el problema correcto como de resolverlo. Identificar los objetivos, las limitaciones y las compensaciones correctas exige una amplia interacción entre los investigadores y las partes interesadas.
Leer más →