AInstein: Evaluación de la viabilidad de enfoques generados por IA para problemas de investigación

Resumen: Los modelos de lenguajes grandes (LLM) demuestran capacidades impresionantes en una amplia gama de tareas, pero aún no está claro si ese éxito refleja un razonamiento genuino o un recuerdo sofisticado. Presentamos AInstein, un marco para probar si los LLM pueden generar soluciones válidas a problemas de investigación de IA utilizando solo su conocimiento paramétrico previamente entrenado, sin ajustes específicos de dominio, aumento de recuperación u otras ayudas externas. Nuestro enfoque extrae declaraciones de problemas destiladas de presentaciones de ICLR 2025 de alta calidad, luego asigna a agentes solucionadores especializados la tarea de proponer y perfeccionar soluciones técnicas a través de ciclos de crítica iterativos, imitando los ciclos de propuesta, revisión y revisión centrales para la investigación científica. Evaluamos AInstein en 1214 artículos ICLR estratificados por nivel de aceptación (Oral, Spotlight, Poster), utilizando un paradigma LLM como juez guiado por una rúbrica estructurada, complementada con verificaciones manuales específicas. El rendimiento se evalúa con tres métricas: Tasa de éxito (¿la solución aborda el problema?), Redescubrimiento (¿se alinea con los métodos propuestos por humanos?) y Novedad (¿proporciona enfoques válidos y originales?). Nuestros resultados revelan que, si bien los LLM pueden redescubrir soluciones factibles y ocasionalmente proponer alternativas creativas, su capacidad de resolución de problemas sigue siendo frágil y muy sensible al encuadre. Estos hallazgos proporcionan la primera evidencia a gran escala sobre hasta qué punto los LLM pueden actuar como solucionadores de problemas científicos autónomos, destacando tanto su potencial latente como sus limitaciones actuales.

Publicado originalmente en export.arxiv.org el 7 de octubre de 2025.
Ver fuente original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Árboles que ensamblan el enfoque de Mann Whitney para detectar la asociación articular de todo el genoma entre loci de bajo efecto marginal

Promulgar video introductorio

En algunas mejoras a minimax ilimitado

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido