En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Telemath: un punto de referencia para modelos de idiomas grandes en la resolución de problemas matemáticos de telecomunicaciones

Telemath: un punto de referencia para modelos de idiomas grandes en la resolución de problemas matemáticos de telecomunicaciones

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: La creciente adopción de la inteligencia artificial en las telecomunicaciones ha aumentado el interés en la capacidad de los modelos de idiomas grandes (LLM) para abordar tareas específicas de dominio e intensivas matemáticamente. Aunque los avances recientes han mejorado el rendimiento de las LLM en el razonamiento matemático general, su efectividad dentro de dominios especializados, como el procesamiento de señales, la optimización de la red y el análisis de rendimiento, permanece en gran medida inexplorada. Para abordar esta brecha, presentamos Telemath, el primer conjunto de datos de referencia diseñado específicamente para evaluar el rendimiento de LLM en la resolución de problemas matemáticos con soluciones numéricas en el dominio de telecomunicaciones. Compuesto por 500 pares de preguntas de preguntas (QNA), Telemath cubre un amplio espectro de temas en el campo de telecomunicaciones. Este documento describe la tubería de generación QNAS propuesta, comenzando a partir de una semilla seleccionada de problemas creados por expertos en la materia. La evaluación de una amplia gama de LLM de código abierto revela que el mejor rendimiento en Telemath es logrado mediante modelos recientes diseñados explícitamente para un razonamiento matemático o lógico. En contraste, los modelos de uso general, incluso aquellos con una gran cantidad de parámetros, a menudo luchan con estos desafíos. Hemos publicado el conjunto de datos y el código de evaluación para aliviar la reproducibilidad de los resultados y apoyar la investigación futura.

Publicado Originalme en rss.arxiv.org El 12 de junio de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web