En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->IndicJR: un punto de referencia libre de jueces sobre la solidez del jailbreak en idiomas del sur de Asia

IndicJR: un punto de referencia libre de jueces sobre la solidez del jailbreak en idiomas del sur de Asia

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen:IJR revela tres patrones. (1) Los contratos inflan los rechazos pero no detienen los jailbreaks: en JSON, LLaMA y Sarvam superan 0,92 JSR, y en Free todos los modelos llegan a 1,0 con rechazos colapsando. (2) Los ataques del inglés al índico se transfieren con fuerza, y los envoltorios de formato a menudo superan a los envoltorios de instrucciones. (3) La ortografía importa: las entradas romanizadas o mixtas reducen el JSR en JSON, con correlaciones con la participación de la romanización y la tokenización (aproximadamente 0,28 a 0,32) que indican efectos sistemáticos. Las auditorías humanas confirman la confiabilidad del detector y las comparaciones completas preservan las conclusiones. IJR ofrece una prueba de estrés multilingüe reproducible que revela los riesgos ocultos por las evaluaciones centradas en contratos solo en inglés, especialmente para los usuarios del sur de Asia que frecuentemente cambian de código y romanizan.

Publicado originalmente en export.arxiv.org el 19 de febrero de 2026.
Ver fuente original

admin

Usuario de administración del sitio web