En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Punto de referencia del asistente GTO

Punto de referencia del asistente GTO

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Presentamos GTO Wizard Benchmark, una API pública y un marco de evaluación estandarizado para algoritmos de evaluación comparativa en Heads-Up No-Limit Texas Hold’em (HUNL). El punto de referencia evalúa a los agentes contra GTO Wizard AI, un agente de póquer sobrehumano de última generación que se aproxima a Nash Equilibria, y derrotó a Slumbot, el campeón de la Competencia Anual de Póquer por Computadora de 2018 y anterior punto de referencia HUNL accesible al público más fuerte, por $19.4$ $pm$ $4.1$ bb/100. La varianza es un desafío fundamental en la evaluación del poker; Abordamos esto integrando AIVAT, una técnica de reducción de la varianza demostrablemente imparcial que logra una significación estadística equivalente con diez veces menos manos que la ingenua evaluación Monte Carlo. Llevamos a cabo un estudio comparativo integral de modelos de lenguajes grandes de última generación en condiciones de disparo cero, incluidos GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4 y otros. Los resultados y análisis iniciales revelan un progreso dramático en el razonamiento LLM en los últimos años, sin embargo, todos los modelos permanecen muy por debajo de la línea de base establecida por nuestro punto de referencia. El análisis cualitativo revela claras oportunidades de mejora, incluida la representación y la capacidad de razonar sobre estados ocultos. Este punto de referencia proporciona a los investigadores un entorno preciso y cuantificable para evaluar los avances en la planificación y el razonamiento en sistemas multiagente con observabilidad parcial.

Publicado originalmente en export.arxiv.org el 25 de marzo de 2026.
Ver fuente original

admin

Usuario de administración del sitio web