En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="2"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Seguridad no encontrada (404): riesgos ocultos de la toma de decisiones sobre robótica basada en LLM

Seguridad no encontrada (404): riesgos ocultos de la toma de decisiones sobre robótica basada en LLM

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Un error de un sistema de IA en un entorno crítico para la seguridad puede costar vidas. A medida que los modelos de lenguaje grande (LLM) se vuelven parte integral de la toma de decisiones en robótica, la dimensión física del riesgo crece; una sola instrucción incorrecta puede poner en peligro directamente la seguridad humana. Este artículo aborda la urgente necesidad de evaluar sistemáticamente el desempeño del LLM en escenarios donde incluso los errores menores son catastróficos. A través de una evaluación cualitativa de un escenario de evacuación en caso de incendio, identificamos casos críticos de falla en la toma de decisiones basada en LLM. Con base en esto, diseñamos siete tareas de evaluación cuantitativa, categorizadas en: Información completa, Información incompleta y Razonamiento espacial orientado a la seguridad (SOSR). Las tareas de información completa utilizan mapas ASCII para minimizar la ambigüedad en la interpretación y aislar el razonamiento espacial del procesamiento visual. Las tareas de información incompleta requieren modelos para inferir el contexto faltante, probando la continuidad espacial frente a las alucinaciones. Las tareas SOSR utilizan lenguaje natural para evaluar la toma de decisiones segura en contextos que amenazan la vida. Comparamos varios LLM y modelos de visión y lenguaje (VLM) en estas tareas. Más allá del rendimiento agregado, analizamos las implicaciones de una tasa de fallas del 1%, destacando cómo los errores “raros” se convierten en resultados catastróficos. Los resultados revelan graves vulnerabilidades: varios modelos lograron una tasa de éxito del 0% en la navegación ASCII, mientras que en un simulacro de incendio, los modelos indicaron a los robots que se movieran hacia áreas peligrosas en lugar de hacia salidas de emergencia. Nuestros hallazgos llevan a una conclusión aleccionadora: los LLM actuales no están listos para su implementación directa en sistemas críticos para la seguridad. Una tasa de precisión del 99% es peligrosamente engañosa en robótica, ya que implica que una de cada cien ejecuciones podría provocar daños catastróficos. Demostramos que ni siquiera los modelos más modernos pueden garantizar la seguridad y la dependencia absoluta de ellos genera riesgos inaceptables.

Publicado originalmente en export.arxiv.org el 11 de enero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web