Humains-Junior: un modelo de lenguaje 3.8B que logra una precisión fáctica de nivel GPT-4o mediante razonamiento de exoesqueleto dirigido

Resumen:Resultados. En Q1–Q500 bajo jueces idénticos, GPT-4o obtiene una puntuación de 73,5% (IC 95% 69,5-77,2) y Humans-Junior 72,7% (IC 95% 68,7-76,5); la diferencia pareada es de 0,8 pp (IC del 95 % de arranque: -3,1 $ a $+4,7 $; permutación $p = 0,72 $; $d de Cohen = 0,023 $). TOST establece equivalencia en $pm 5$ pp (no en $pm 3$ pp). Cuando se compra como API administradas, el modelo base de Humans-Junior (Phi-3.5-mini-instruct) es $aproximadamente 19times$ menos costoso que GPT-4o según el precio de Microsoft AI Foundry; Las implementaciones autohospedadas o perimetrales pueden llevar el costo de inferencia incremental hacia cero. Las fuentes de precios medidas versus estimadas se tabulan en el Apéndice E.
Método. Nuestro enfoque combina andamios mínimos de “razonamiento de exoesqueleto” dirigidos con un ajuste fino del comportamiento que enseña el cumplimiento del protocolo (disciplina epistémica) en lugar de respuestas de dominio. El ajuste fino por sí solo aporta poco; combinados, crean sinergia (+17,7 pp, $p < 0,001$) y reducen la varianza ($aproximadamente 25%$). En entornos de solo indicaciones en modelos de frontera (Q1--Q100; no comparable), el razonamiento dirigido mejoró GPT-4o en +11,8 pp a 85,3% y Gemini-2.5-Pro en +5,0 pp a 93,3% (línea de base 88,3%, $n = 100$); consulte la Sección ~5. TL;DR. Un modelo 3.8B logra una precisión de FACTS de nivel GPT-4o (equivalente a $pm 5$ pp en Q1--Q500). Los precios de la nube muestran un costo aproximadamente 19 veces menor en comparación con GPT-4o, y las implementaciones autohospedadas/de borde pueden acercarse al costo marginal cero. Las fuentes de fijación de precios se enumeran en el Apéndice E. Las ganancias fronterizas solo inmediatas (Q1--Q100; no comparables) y los resultados exploratorios rápidos optimizados según jueces anteriores se resumen en el Apéndice F. Palabras clave: modelos de lenguaje pequeño, fundamentos fácticos, razonamiento dirigido, ajuste fino, alineación de modelos, IA rentable

Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Gráficos de creencias con zonas de razonamiento: estructura, dinámica y activación epistémica

La descarga: misterios del inmunoma y cómo elegir un pionero en tecnología climática

La descarga: el papel de gas y petróleo en la tecnología climática, y el uso de IA para descifrar el antiguo latín

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido