Resumen: Grandes modelos de lenguaje (LLM) han logrado un éxito notable y ha demostrado un rendimiento superior en varias tareas, incluido el procesamiento del lenguaje natural (PNL), el pronóstico de la clima, el plegamiento de proteínas biológicas, la generación de texto y la resolución de problemas matemáticos. Sin embargo, muchos datos del mundo real exhiben anatomía jerárquica latente altamente no euclidiana, como redes de proteínas, redes de transporte, redes financieras, redes cerebrales y estructuras lingüísticas o árboles sintácticos en lenguas naturales. Aprender efectivamente a la semántica intrínseca implica y relaciones jerárquicas de estos datos de entrada sin estructura y no estructurados que utilizan LLMS sigue siendo un área subexplorada. Debido a su efectividad en el modelado de estructuras jerárquicas similares a árboles, la geometría hiperbólica, un espacio no euclidiano, ha ganado popularidad rápidamente como un espacio de representación latente expresivo para el modelado de datos complejos en dominios como gráficos, imágenes, idiomas y datos multimodales. Aquí, proporcionamos una exposición integral y contextual de los avances recientes en LLM que aprovechan la geometría hiperbólica como un espacio de representación para mejorar el aprendizaje de la representación semántica y el razonamiento a gran escala. Específicamente, el documento presenta una taxonomía de las principales técnicas de LLM hiperbólicos (HYPLLMS) en términos de cuatro categorías principales: (1) LLM hiperbólicos a través de mapas EXP/log; (2) modelos hiperbólicos ajustados; (3) LLMS totalmente hiperbólicos, y (4) modelos hiperbólicos del espacio de estado. También exploramos aplicaciones potenciales cruciales y describimos las futuras direcciones de investigación. Un repositorio de documentos clave, modelos, conjuntos de datos e implementaciones de código está disponible en esta URL HTTPS.
Publicado Originalme en export.arxiv.org El 8 de septiembre de 2025.
Ver Fuente Original