Resumen: La generación de datos sintéticos utilizando modelos de lenguaje grande (LLMS) se ha convertido en una solución prometedora en varios dominios, particularmente en el campo médico, para mitigar los desafíos de recopilación de datos. Sin embargo, los estudios existentes utilizan principalmente LLM para reescribir y completar los registros médicos existentes, donde existen las limitaciones en la privacidad de los datos, la precisión y el alféizar de la diversidad, y además carecen de la capacidad de interactuar como pacientes reales. Para abordar estos problemas, proponemos un marco realista de generación de pacientes, paciente cero, que no requiere registros médicos reales. Patient-Zero primero presenta una arquitectura de generación de múltiples pasos alineada médicamente, que crea registros integrales de pacientes a través de la inyección de conocimiento médico jerárquico sin registros médicos reales. Luego, para optimizar las habilidades de interacción del paciente virtual con humanos, el paciente cero diseña un mecanismo de actualización dinámica para mejorar la consistencia y el rendimiento de la conversación. Nuestro marco permite la generación de registros de pacientes contextualmente diversos al tiempo que mantiene una estricta coherencia médica, respaldada por estrategias de diálogo adaptativo y verificación de plausibilidad clínica en tiempo real. Los resultados experimentales demuestran que nuestro modelo logra un buen rendimiento en precisión, diversidad y consistencia. Después de entrenar con nuestros pacientes virtuales generados, los modelos existentes muestran mejoras significativas en el conjunto de datos MEDQA.
Publicado Originalme en export.arxiv.org El 15 de septiembre de 2025.
Ver Fuente Original