Preview

Қазақстан-Британ техникалық университетінің хабаршысы

Кеңейтілген іздеу

ГЕНЕТИКАЛЫҚ ДЕРЕКТЕРДІ ӨҢДЕУГЕ, АЛДЫН АЛА ӨҢДЕУ МЕН КЛАСТЕРЛІК ТАЛДАУҒА АРНАЛҒАН ҚҰРАЛДАРҒА, ӘДІСТЕМЕЛЕР МЕН ӘДІСТЕРГЕ ШОЛУ

https://doi.org/10.55452/1998-6688-2024-21-4-45-57

Толық мәтін:

Аңдатпа

Ген экспрессиясын талдау – жасушалардың әрекеттерін, ауру механизмдерін және дәрілік реакцияны түсінудің негізгі құрамдас бөлігі. Жоғары өнімді секвенирлеудің, әсіресе бір жасушалы РНҚ секвенирлеуінің (scRNA-seq) пайда болуы жасушалық гетерогенділікті бұрын-соңды болмаған деңгейге дейін зерттеу мүмкіндігін кеңейтті. Ұқсас экспрессиялық профильдері бар гендер немесе жасушаларды топтастыру үшін қолданылатын кластерлеу алгоритмдері осы технологиялар арқылы алынған үлкен деректер жиынын талдау барысында баға жетпес құралға айналды. Бұл мақалада гендік экспрессия деректерін талдауда, әсіресе бір жасушалы РНҚ секвенциясына негізделген зерттеулерде қолданылатын әртүрлі кластерлеу әдістері қарастырылды. Талдау иерархиялық кластерлеу мен k-means сияқты дәстүрлі әдістерді, сондайақ үлгіге негізделген кластерлеу, машиналық оқыту және терең оқыту тәсілдері сияқты жетілдірілген әдістерді қамтиды. Негізгі міндеттерге жоғары өлшемді деректерді өңдеу, шуды азайту және үлкен деректер жиынын тиімді масштабтау жатады. Сонымен қатар мульти-омикалық деректерді біріктіру, терең оқытуғанегізделген кластерлеу және федеративті оқыту сияқты жаңа жетістіктер гендік экспрессияны зерттеудегі кластерлеу қосымшаларының дәлдігі мен биологиялық маңыздылығын арттыруға мүмкіндік береді. Мақала кластерлеу алгоритмдерінің күрделі гендік экспрессия деректерін өңдеудегі болашақ бағыттарын талқылап, биологиялық түсініктерді жақсарту жолдарын ұсынады.

Авторлар туралы

А. Куникеев
Сәтбаев университеті
Қазақстан

техника ғылымдарының магистрі

Алматы қ.



А. Еримбетова
Сәтбаев университеті; Қазақстан Республикасы Ғылым және жоғары білім министрлігі Ғылым комитетінің Ақпараттық және есептеуіш технологиялар институты
Қазақстан

PhD докторы, техникалық ғылымдар кандидаты, доцент

Алматы қ.



Р. Сатыбалдиева
Сәтбаев университеті
Ресей

техникалық ғылымдар кандидаты, профессор

Алматы қ.



Әдебиет тізімі

1. Casadei R. et al. Identification of housekeeping genes suitable for gene expression analysis in the zebrafish. Gene Expression Patterns, 2011, vol. 11, no. 3–4, pp. 271–276.

2. Seo D., Ginsburg G.S., Goldschmidt-Clermont P.J. Gene Expression Analysis of Cardiovascular Diseases. J Am Coll Cardiol, 2006, vol. 48, no. 2, pp. 227–235.

3. Predicting drug response based on gene expression. Crit Rev Oncol Hematol, 2004, vol. 51, no. 3, pp. 205–227.

4. Huang X. et al. High Throughput Single Cell RNA Sequencing, Bioinformatics Analysis and Applications, 2018, pp. 33–43.

5. Perera M.A.I., Wijesinghe C.R., Weerasinghe A.R. Analysis of Expression Data Using Unsupervised Techniques. 2020 20th International Conference on Advances in ICT for Emerging Regions (ICTer). IEEE, 2020, pp. 119–124.

6. Li X., Wang C.-Y. From bulk, single-cell to spatial RNA sequencing. Int J Oral Sci, 2021, vol. 13, no. 1, p. 36.

7. Nathans J.F. et al. Genetic Tools for Cell Lineage Tracing and Profiling Developmental Trajectories in the Skin. Journal of Investigative Dermatology, 2024, vol. 144, no. 5, pp. 936–949.

8. Yao D.W. et al. Quantifying genetic effects on disease mediated by assayed gene expression levels. Nat Genet, 2020, vol. 52, no. 6, pp. 626–633.

9. Huang C.-T. et al. Perturbational Gene-Expression Signatures for Combinatorial Drug Discovery. iScience, 2019, vol. 15, pp. 291–306.

10. Qi R. et al. Clustering and classification methods for single-cell RNA-sequencing data. Brief Bioinform, 2020, vol. 21, no. 4, pp. 1196–1208.

11. Badsha Md.B. et al. Robust complementary hierarchical clustering for gene expression data analysis by β-divergence. J Biosci Bioeng, 2013, vol. 116, no. 3, pp. 397–407.

12. Chen L. et al. Deep soft K-means clustering with self-training for single-cell RNA sequence data. NAR Genom Bioinform, 2020, vol. 2, no. 2.

13. Li L. et al. Selecting Representative Samples From Complex Biological Datasets Using K-Medoids Clustering. Front Genet., 2022, vol. 13.

14. Gormley I.C., Murphy T.B., Raftery A.E. Model-Based Clustering. Annu Rev Stat Appl., 2023, vol. 10, no. 1, pp. 573–595.

15. Yu B. et al. scGMAI: a Gaussian mixture model for clustering single-cell RNA-Seq data based on deep autoencoder. Brief Bioinform, 2021, vol. 22, no. 4.

16. Wu X., Wu H., Wu Z. Penalized Latent Dirichlet Allocation Model in Single-Cell RNA Sequencing. Stat Biosci., 2021, vol. 13, no. 3, pp. 543–562.

17. Arora S. et al. Variability in estimated gene expression among commonly used RNA-seq pipelines. Sci Rep., 2020, vol. 10, no.1, p. 2734.

18. Lataretu M., Hölzer M. RNAflow: An Effective and Simple RNA-Seq Differential Gene Expression Pipeline Using Nextflow. Genes (Basel), 2020, vol. 11, no. 12, p. 1487.

19. Rosati D. et al. Differential gene expression analysis pipelines and bioinformatic tools for the identification of specific biomarkers: A review. Comput Struct Biotechnol J., 2024, vol. 23, pp. 1154–1168.

20. Lo C.-C., Chain P.S.G. Rapid evaluation and quality control of next generation sequencing data with FaQCs. BMC Bioinformatics, 2014, vol. 15, no. 1, p. 366.

21. Bolger A.M., Lohse M., Usadel B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics, 2014, vol. 30, no. 15, pp. 2114–2120.

22. Sun K. Ktrim: an extra-fast and accurate adapter- and quality-trimmer for sequencing data. Bioinformatics, 2020, vol. 36, no. 11, pp. 3561–3562.

23. Dobin A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics, 2013, vol. 29, no. 1, pp. 15–21.

24. Kim D. et al. Graph-based genome alignment and genotyping with HISAT2 and HISAT-genotype. Nat Biotechnol., 2019, vol. 37, no. 8, pp. 907–915.

25. Kim D. et al. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. Genome Biol., 2013, vol. 14, no.4, p. R36.

26. Anders S., Pyl P.T., Huber W. HTSeq–a Python framework to work with high-throughput sequencing data. Bioinformatics, 2015, vol. 31, no. 2, pp. 166–169.

27. Kim T. et al. Impact of similarity metrics on single-cell RNA-seq data clustering, Brief Bioinform., 2019, vol. 20, no. 6, pp. 2316–2326.

28. Liu S. et al. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. Journal of Visualized Experiments, 2021, no. 175.

29. Abu-Jamous B., Kelly S. Clust: automatic extraction of optimal co-expressed gene clusters from gene expression data. Genome Biol., 2018, vol. 19, no. 1, p. 172.

30. Abueg L.A.L. et al. The Galaxy platform for accessible, reproducible, and collaborative data analyses: 2024 update. Nucleic Acids Res., 2024, vol. 52, no. W1, pp. W83–W94.


Рецензия

Дәйектеу үшін:


Куникеев А., Еримбетова А., Сатыбалдиева Р. ГЕНЕТИКАЛЫҚ ДЕРЕКТЕРДІ ӨҢДЕУГЕ, АЛДЫН АЛА ӨҢДЕУ МЕН КЛАСТЕРЛІК ТАЛДАУҒА АРНАЛҒАН ҚҰРАЛДАРҒА, ӘДІСТЕМЕЛЕР МЕН ӘДІСТЕРГЕ ШОЛУ. Қазақстан-Британ техникалық университетінің хабаршысы. 2024;21(4):45-57. https://doi.org/10.55452/1998-6688-2024-21-4-45-57

For citation:


Kunikeyev A., Yerimbetova A., Satybaldiyeva R. A REVIEW OF TOOLS, METHODOLOGIES, AND TECHNIQUES FOR PROCESSING, PRE-PROCESSING, AND CLUSTERING ANALYSIS OF GENETIC DATA. Herald of the Kazakh-British Technical University. 2024;21(4):45-57. https://doi.org/10.55452/1998-6688-2024-21-4-45-57

Қараулар: 186


ISSN 1998-6688 (Print)
ISSN 2959-8109 (Online)