作为重要的生物信息学分支,生信分析已经成为生命科学领域中广泛应用的技术之一。在生信分析过程中,基于AI和机器学习等技术的分析方法,能进一步提高生信分析的分辨率和准确性。这一数字化平台的功能极大的推动了医疗进步和精准医疗发展。
比较两个或两个以上符号序列的相似性或不相似性。著名的BLAST和FASTA算法及相应的改进方法均是从此前提出发的。
比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。
给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。
生物信息学中的重要的研究领域。人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,以及各种治疗和预防方法,包括药物治疗等,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。