Resumen: Con los avances en la tecnología de secuenciación de próxima generación, se genera una cantidad masiva de datos de secuenciación, ofreciendo una gran oportunidad para investigar de manera integral el papel de las variantes raras en la etiología genética de enfermedades complejas. Sin embargo, esto plantea un gran desafío para el análisis estadístico de los datos de secuenciación de alta dimensión. Los análisis de asociación basados en métodos estadísticos tradicionales sufren una pérdida de potencia sustancial debido a la baja frecuencia de las variantes genéticas y la dimensionalidad extremadamente alta de los datos. Desarrollamos una estadística U ponderada, denominada Wu-seq, para el análisis de la asociación de alta dimensión de los datos de secuenciación. Basado en una estadística U no paramétrica, Wu-seq no supone el modelo de enfermedad subyacente y la distribución de fenotipos, y puede aplicarse a una variedad de fenotipos. A través de estudios de simulación y un estudio empírico, demostramos que WU-SEQ superó un método de skat comúnmente utilizado cuando se violaron los supuestos subyacentes (por ejemplo, el fenotipo siguió una distribución de cola pesada). Incluso cuando se cumplieron los supuestos, Wu-seq todavía alcanzó un rendimiento comparable a Skat. Finalmente, aplicamos Wu-seq a los datos de secuenciación del Dallas Heart Study (DHS), y detectamos una asociación entre ANGPTL 4 y el colesterol de lipoproteínas de muy baja densidad.
Publicado Originalme en export.arxiv.org El 17 de agosto de 2025.
Ver Fuente Original