Preview

Вестник Казахстанско-Британского технического университета

Расширенный поиск

ОБЗОР ИНСТРУМЕНТОВ, МЕТОДОЛОГИЙ И МЕТОДОВ ОБРАБОТКИ, ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ И КЛАСТЕРНОГО АНАЛИЗА ГЕНЕТИЧЕСКИХ ДАННЫХ

https://doi.org/10.55452/1998-6688-2024-21-4-45-57

Аннотация

Анализ экспрессии генов стал ключевым компонентом в понимании поведения клеток, механизмов заболеваний и реакции на лекарства. Появление высокопроизводительного секвенирования, в частности секвенирования РНК отдельных клеток (scRNA-seq), расширило наши возможности изучения клеточной гетерогенности до беспрецедентного уровня. Алгоритмы кластеризации, необходимые для группировки генов или клеток со схожими профилями экспрессии, стали бесценными для анализа огромных наборов данных, генерируемых этими технологиями. В этой статье рассматриваются различные методы кластеризации, применяемые к данным об экспрессии генов, в частности секвенирования РНК отдельных клеток. Анализ охватывает традиционные методы, такие как иерархическая кластеризация и k-means, а также более продвинутые подходы, такие как кластеризация на основе моделей, методы на основе машинного обучения и глубокого обучения. Основные проблемы включают обработку многомерных данных, снижение шума и достижение масштабируемости для больших наборов данных. Более того, новые достижения, такие как интеграция данных мультиомики, кластеризация на основе глубокого обучения и федеративное обучение, предлагают потенциальные улучшения точности и биологической значимости для приложений кластеризации в исследовании экспрессии генов. Обзор завершается обсуждением будущих направлений развития алгоритмов кластеризации для обработки все более сложных данных об экспрессии генов для получения более точных биологических пониманий.

Об авторах

А. Куникеев
Сатбаев Университет
Казахстан

магистр технических наук

г. Алматы



А. Еримбетова
Сатбаев Университет; Институт информационных и вычислительных технологий Комитета науки Министерства науки и высшего образования Республики Казахстан
Казахстан

доктор Ph.D., канд. техн. наук, ассоц. профессор

г. Алматы



Р. Сатыбалдиева
Сатбаев Университет
Россия

канд. техн. наук, профессор

г. Алматы



Список литературы

1. Casadei R. et al. Identification of housekeeping genes suitable for gene expression analysis in the zebrafish. Gene Expression Patterns, 2011, vol. 11, no. 3–4, pp. 271–276.

2. Seo D., Ginsburg G.S., Goldschmidt-Clermont P.J. Gene Expression Analysis of Cardiovascular Diseases. J Am Coll Cardiol, 2006, vol. 48, no. 2, pp. 227–235.

3. Predicting drug response based on gene expression. Crit Rev Oncol Hematol, 2004, vol. 51, no. 3, pp. 205–227.

4. Huang X. et al. High Throughput Single Cell RNA Sequencing, Bioinformatics Analysis and Applications, 2018, pp. 33–43.

5. Perera M.A.I., Wijesinghe C.R., Weerasinghe A.R. Analysis of Expression Data Using Unsupervised Techniques. 2020 20th International Conference on Advances in ICT for Emerging Regions (ICTer). IEEE, 2020, pp. 119–124.

6. Li X., Wang C.-Y. From bulk, single-cell to spatial RNA sequencing. Int J Oral Sci, 2021, vol. 13, no. 1, p. 36.

7. Nathans J.F. et al. Genetic Tools for Cell Lineage Tracing and Profiling Developmental Trajectories in the Skin. Journal of Investigative Dermatology, 2024, vol. 144, no. 5, pp. 936–949.

8. Yao D.W. et al. Quantifying genetic effects on disease mediated by assayed gene expression levels. Nat Genet, 2020, vol. 52, no. 6, pp. 626–633.

9. Huang C.-T. et al. Perturbational Gene-Expression Signatures for Combinatorial Drug Discovery. iScience, 2019, vol. 15, pp. 291–306.

10. Qi R. et al. Clustering and classification methods for single-cell RNA-sequencing data. Brief Bioinform, 2020, vol. 21, no. 4, pp. 1196–1208.

11. Badsha Md.B. et al. Robust complementary hierarchical clustering for gene expression data analysis by β-divergence. J Biosci Bioeng, 2013, vol. 116, no. 3, pp. 397–407.

12. Chen L. et al. Deep soft K-means clustering with self-training for single-cell RNA sequence data. NAR Genom Bioinform, 2020, vol. 2, no. 2.

13. Li L. et al. Selecting Representative Samples From Complex Biological Datasets Using K-Medoids Clustering. Front Genet., 2022, vol. 13.

14. Gormley I.C., Murphy T.B., Raftery A.E. Model-Based Clustering. Annu Rev Stat Appl., 2023, vol. 10, no. 1, pp. 573–595.

15. Yu B. et al. scGMAI: a Gaussian mixture model for clustering single-cell RNA-Seq data based on deep autoencoder. Brief Bioinform, 2021, vol. 22, no. 4.

16. Wu X., Wu H., Wu Z. Penalized Latent Dirichlet Allocation Model in Single-Cell RNA Sequencing. Stat Biosci., 2021, vol. 13, no. 3, pp. 543–562.

17. Arora S. et al. Variability in estimated gene expression among commonly used RNA-seq pipelines. Sci Rep., 2020, vol. 10, no.1, p. 2734.

18. Lataretu M., Hölzer M. RNAflow: An Effective and Simple RNA-Seq Differential Gene Expression Pipeline Using Nextflow. Genes (Basel), 2020, vol. 11, no. 12, p. 1487.

19. Rosati D. et al. Differential gene expression analysis pipelines and bioinformatic tools for the identification of specific biomarkers: A review. Comput Struct Biotechnol J., 2024, vol. 23, pp. 1154–1168.

20. Lo C.-C., Chain P.S.G. Rapid evaluation and quality control of next generation sequencing data with FaQCs. BMC Bioinformatics, 2014, vol. 15, no. 1, p. 366.

21. Bolger A.M., Lohse M., Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics, 2014, vol. 30, no. 15, pp. 2114–2120.

22. Sun K. Ktrim: an extra-fast and accurate adapter- and quality-trimmer for sequencing data. Bioinformatics, 2020, vol. 36, no. 11, pp. 3561–3562.

23. Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics, 2013, vol. 29, no. 1, pp. 15–21.

24. Kim D. et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol., 2019, vol. 37, no. 8, pp. 907–915.

25. Kim D. et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol., 2013, vol. 14, no.4, p. R36.

26. Anders S., Pyl P.T., Huber W. HTSeq–a Python framework to work with high-throughput sequencing data. Bioinformatics, 2015, vol. 31, no. 2, pp. 166–169.

27. Kim T. et al. Impact of similarity metrics on single-cell RNA-seq data clustering, Brief Bioinform., 2019, vol. 20, no. 6, pp. 2316–2326.

28. Liu S. et al. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. Journal of Visualized Experiments, 2021, no. 175.

29. Abu-Jamous B., Kelly S. Clust: automatic extraction of optimal co-expressed gene clusters from gene expression data. Genome Biol., 2018, vol. 19, no. 1, p. 172.

30. Abueg L.A.L. et al. The Galaxy platform for accessible, reproducible, and collaborative data analyses: 2024 update. Nucleic Acids Res., 2024, vol. 52, no. W1, pp. W83–W94.


Рецензия

Для цитирования:


Куникеев А., Еримбетова А., Сатыбалдиева Р. ОБЗОР ИНСТРУМЕНТОВ, МЕТОДОЛОГИЙ И МЕТОДОВ ОБРАБОТКИ, ПРЕДВАРИТЕЛЬНОЙ ОБРАБОТКИ И КЛАСТЕРНОГО АНАЛИЗА ГЕНЕТИЧЕСКИХ ДАННЫХ. Вестник Казахстанско-Британского технического университета. 2024;21(4):45-57. https://doi.org/10.55452/1998-6688-2024-21-4-45-57

For citation:


Kunikeyev A., Yerimbetova A., Satybaldiyeva R. A REVIEW OF TOOLS, METHODOLOGIES, AND TECHNIQUES FOR PROCESSING, PRE-PROCESSING, AND CLUSTERING ANALYSIS OF GENETIC DATA. Herald of the Kazakh-British Technical University. 2024;21(4):45-57. https://doi.org/10.55452/1998-6688-2024-21-4-45-57

Просмотров: 184


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)