En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Humains-Junior: un modelo de lenguaje 3.8B que logra una precisión fáctica de nivel GPT-4o mediante razonamiento de exoesqueleto dirigido

Humains-Junior: un modelo de lenguaje 3.8B que logra una precisión fáctica de nivel GPT-4o mediante razonamiento de exoesqueleto dirigido

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:Resultados. En Q1–Q500 bajo jueces idénticos, GPT-4o obtiene una puntuación de 73,5% (IC 95% 69,5-77,2) y Humans-Junior 72,7% (IC 95% 68,7-76,5); la diferencia pareada es de 0,8 pp (IC del 95 % de arranque: -3,1 $ a $+4,7 $; permutación $p = 0,72 $; $d de Cohen = 0,023 $). TOST establece equivalencia en $pm 5$ pp (no en $pm 3$ pp). Cuando se compra como API administradas, el modelo base de Humans-Junior (Phi-3.5-mini-instruct) es $aproximadamente 19times$ menos costoso que GPT-4o según el precio de Microsoft AI Foundry; Las implementaciones autohospedadas o perimetrales pueden llevar el costo de inferencia incremental hacia cero. Las fuentes de precios medidas versus estimadas se tabulan en el Apéndice E.
Método. Nuestro enfoque combina andamios mínimos de “razonamiento de exoesqueleto” dirigidos con un ajuste fino del comportamiento que enseña el cumplimiento del protocolo (disciplina epistémica) en lugar de respuestas de dominio. El ajuste fino por sí solo aporta poco; combinados, crean sinergia (+17,7 pp, $p < 0,001$) y reducen la varianza ($aproximadamente 25%$). En entornos de solo indicaciones en modelos de frontera (Q1--Q100; no comparable), el razonamiento dirigido mejoró GPT-4o en +11,8 pp a 85,3% y Gemini-2.5-Pro ​​en +5,0 pp a 93,3% (línea de base 88,3%, $n = 100$); consulte la Sección ~5. TL;DR. Un modelo 3.8B logra una precisión de FACTS de nivel GPT-4o (equivalente a $pm 5$ pp en Q1--Q500). Los precios de la nube muestran un costo aproximadamente 19 veces menor en comparación con GPT-4o, y las implementaciones autohospedadas/de borde pueden acercarse al costo marginal cero. Las fuentes de fijación de precios se enumeran en el Apéndice E. Las ganancias fronterizas solo inmediatas (Q1--Q100; no comparables) y los resultados exploratorios rápidos optimizados según jueces anteriores se resumen en el Apéndice F. Palabras clave: modelos de lenguaje pequeño, fundamentos fácticos, razonamiento dirigido, ajuste fino, alineación de modelos, IA rentable

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web