Telemath: un punto de referencia para modelos de idiomas grandes en la resolución de problemas matemáticos de telecomunicaciones

Resumen: La creciente adopción de la inteligencia artificial en las telecomunicaciones ha aumentado el interés en la capacidad de los modelos de idiomas grandes (LLM) para abordar tareas específicas de dominio e intensivas matemáticamente. Aunque los avances recientes han mejorado el rendimiento de las LLM en el razonamiento matemático general, su efectividad dentro de dominios especializados, como el procesamiento de señales, la optimización de la red y el análisis de rendimiento, permanece en gran medida inexplorada. Para abordar esta brecha, presentamos Telemath, el primer conjunto de datos de referencia diseñado específicamente para evaluar el rendimiento de LLM en la resolución de problemas matemáticos con soluciones numéricas en el dominio de telecomunicaciones. Compuesto por 500 pares de preguntas de preguntas (QNA), Telemath cubre un amplio espectro de temas en el campo de telecomunicaciones. Este documento describe la tubería de generación QNAS propuesta, comenzando a partir de una semilla seleccionada de problemas creados por expertos en la materia. La evaluación de una amplia gama de LLM de código abierto revela que el mejor rendimiento en Telemath es logrado mediante modelos recientes diseñados explícitamente para un razonamiento matemático o lógico. En contraste, los modelos de uso general, incluso aquellos con una gran cantidad de parámetros, a menudo luchan con estos desafíos. Hemos publicado el conjunto de datos y el código de evaluación para aliviar la reproducibilidad de los resultados y apoyar la investigación futura.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Números difusos revisados: operaciones con números difusos extensionales

USERRL: Capacitación de agente interactivo centrado en el usuario a través del aprendizaje de refuerzo

Optimización de la entrega para un comercio rápido factorizando la evaluación cualitativa de las rutas generadas

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido