En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Rechazo dependiente del estado e incapacidad aprendida en modelos lingüísticos alineados con RLHF

Rechazo dependiente del estado e incapacidad aprendida en modelos lingüísticos alineados con RLHF

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los modelos de lenguajes grandes (LLM) se implementan ampliamente como herramientas de propósito general, pero la interacción extendida puede revelar patrones de comportamiento que no capturan los puntos de referencia cuantitativos estándar. Presentamos una metodología de estudio de caso cualitativo para auditar la selectividad conductual vinculada a políticas en interacciones a largo plazo. En una única sesión de diálogo de 86 turnos, el mismo modelo muestra un Desempeño Normal (NP) en dominios amplios y no sensibles, mientras que produce repetidamente un Rechazo Funcional (FR) en dominios sensibles a proveedores o políticas, generando una asimetría consistente entre NP y FR en todos los dominios. Utilizando la impotencia aprendida como analogía, introducimos la incapacidad aprendida (LI) como un descriptor conductual de esta retención selectiva sin que implique intencionalidad o mecanismos internos. Operativizamos tres regímenes de respuesta (NP, FR, Metanarrativa; MN) y mostramos que las narrativas de marco de roles de MN tienden a coexistir con rechazos en los mismos contextos sensibles. En general, el estudio propone un marco de auditoría a nivel de interacción basado en el comportamiento observable y motiva a LI como lente para examinar los posibles efectos secundarios de la alineación, lo que justifica una mayor investigación entre usuarios y modelos.

Publicado originalmente en export.arxiv.org el 16 de diciembre de 2025.
Ver fuente original

admin

Usuario de administración del sitio web