Resumen: El tartamudeo afecta a aproximadamente el 1% de la población mundial, impactando la comunicación y la calidad de vida. Si bien los avances recientes en el aprendizaje profundo han superado los límites de la detección automática de disfluencia del habla, los enfoques basados en reglas siguen siendo cruciales para las aplicaciones clínicas donde la interpretabilidad y la transparencia son primordiales. Este artículo presenta un análisis exhaustivo de los sistemas de detección de tartamudeo basados en reglas, sintetizando ideas de múltiples corpus, incluidos UClass, FluencyBank y Sep-28K. Proponemos un marco mejorado basado en reglas que incorpora la normalización de la tasa de habla, el análisis de características acústicas de nivel múltiple y las estructuras de decisión jerárquica. Nuestro enfoque logra un rendimiento competitivo al tiempo que mantiene la interpretabilidad completa-crítica para la adopción clínica. Demostramos que los sistemas basados en reglas sobresalen particularmente en la detección de prolongación (precisión del 97-99%) y proporcionan un rendimiento estable a través de tasas de habla variable. Además, mostramos cómo estos modelos interpretables pueden integrarse con las tuberías modernas de aprendizaje automático como generadores de propuestas o módulos de restricción, cerrando la brecha entre las prácticas tradicionales de patología del habla y los sistemas de IA contemporáneos. Nuestro análisis revela que, si bien los enfoques neurales pueden lograr una precisión marginalmente mayor en entornos no restringidos, los métodos basados en reglas ofrecen ventajas únicas en contextos clínicos donde la audición de decisiones, el ajuste específico del paciente y la retroalimentación en tiempo real son esenciales.
Publicado Originalme en export.arxiv.org El 25 de agosto de 2025.
Ver Fuente Original