Evaluación de la calidad de la aleatoriedad y la entropía en tareas respaldadas por modelos de lenguaje grandes

Resumen:El rápido avance de la tecnología de modelos de lenguaje grande (LLM) ha dado lugar a diversas aplicaciones, muchas de las cuales requieren inherentemente aleatoriedad, como la toma de decisiones estocástica, los juegos, la programación, los agentes de inteligencia artificial y las tareas relacionadas con la criptografía. Sin embargo, las capacidades de los LLM para manejar la aleatoriedad, particularmente para generar y utilizar números aleatorios de manera efectiva, siguen sin estar claras. Este artículo investiga la capacidad de los LLM para manejar tareas que involucran aleatoriedad a través de una serie de experimentos. Diseñamos un conjunto de experimentos que consideran varios factores que pueden influir en el desempeño de un LLM en tareas que involucran aleatoriedad, como la accesibilidad a herramientas externas, tipos de tareas, estados del modelo (nuevo versus no nuevo) y estrategias de estimulación. Los experimentos cubren una variedad de tareas, incluida la generación de números aleatorios, la generación de cadenas aleatorias como contraseñas, la combinación aleatoria de elementos y la evaluación de la calidad de la aleatoriedad utilizando entropía y el conjunto de pruebas de aleatoriedad del NIST. Nuestros hallazgos revelan que, si bien los LLM pueden generar resultados que exhiben cierto grado de aleatoriedad, su desempeño es inconsistente y a menudo se desvía significativamente del comportamiento esperado. El análisis de los resultados experimentales resalta las limitaciones clave y las áreas donde se necesitan mejoras para que los LLM manejen de manera efectiva tareas que involucran aleatoriedad.

Publicado originalmente en export.arxiv.org el 14 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Conoce a Jim O’Neill, el entusiasta de la longevidad que ahora es el hombre derecho de RFK Jr.

Descubrimiento de heurísticas con modelos de lenguajes grandes (LLM) para programas enteros mixtos: programación en una sola máquina

MultiCNKG: integración de gráficos de conocimiento de enfermedades, genes y neurociencia cognitiva utilizando modelos de lenguaje grandes

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido