Resumen:Resultados. En Q1–Q500 bajo jueces idénticos, GPT-4o obtiene una puntuación de 73,5% (IC 95% 69,5-77,2) y Humans-Junior 72,7% (IC 95% 68,7-76,5); la diferencia pareada es de 0,8 pp (IC del 95 % de arranque: -3,1 $ a $+4,7 $; permutación $p = 0,72 $; $d de Cohen = 0,023 $). TOST establece equivalencia en $pm 5$ pp (no en $pm 3$ pp). Cuando se compra como API administradas, el modelo base de Humans-Junior (Phi-3.5-mini-instruct) es $aproximadamente 19times$ menos costoso que GPT-4o según el precio de Microsoft AI Foundry; Las implementaciones autohospedadas o perimetrales pueden llevar el costo de inferencia incremental hacia cero. Las fuentes de precios medidas versus estimadas se tabulan en el Apéndice E.
Método. Nuestro enfoque combina andamios mínimos de “razonamiento de exoesqueleto” dirigidos con un ajuste fino del comportamiento que enseña el cumplimiento del protocolo (disciplina epistémica) en lugar de respuestas de dominio. El ajuste fino por sí solo aporta poco; combinados, crean sinergia (+17,7 pp, $p < 0,001$) y reducen la varianza ($aproximadamente 25%$). En entornos de solo indicaciones en modelos de frontera (Q1--Q100; no comparable), el razonamiento dirigido mejoró GPT-4o en +11,8 pp a 85,3% y Gemini-2.5-Pro en +5,0 pp a 93,3% (línea de base 88,3%, $n = 100$); consulte la Sección ~5.
TL;DR. Un modelo 3.8B logra una precisión de FACTS de nivel GPT-4o (equivalente a $pm 5$ pp en Q1--Q500). Los precios de la nube muestran un costo aproximadamente 19 veces menor en comparación con GPT-4o, y las implementaciones autohospedadas/de borde pueden acercarse al costo marginal cero. Las fuentes de fijación de precios se enumeran en el Apéndice E. Las ganancias fronterizas solo inmediatas (Q1--Q100; no comparables) y los resultados exploratorios rápidos optimizados según jueces anteriores se resumen en el Apéndice F.
Palabras clave: modelos de lenguaje pequeño, fundamentos fácticos, razonamiento dirigido, ajuste fino, alineación de modelos, IA rentable
Publicado originalmente en export.arxiv.org el 30 de octubre de 2025.
Ver fuente original
