生物信息学常识:单核苷酸多态性(SNP)


在介绍这篇文章的正文前,需要先行解释几个概念,方便于文章的理解:

基因结构:基因DNA分为编码区和非编码区,编码区分为内含子和外显子,非编码区一般是含有调控功能的序列,如启动子区域或者增强子区域等。

CDS:能够编码蛋白质产物的序列

转录因子:指的是能够特异性地结合DNA序列的一系列蛋白质,他们以特异性结合这种方式来调节遗传信息由DNA转录为mRNA这个过程。在转录因子结合区域产生的snp可能影响转录因子的结合特性,从而导致转录因子在等位基因上的结合强度出现差异,也就是特异性结合现象。


我们都知道人与人之间99%以上的DNA序列是一样的,但是也存在一定的差异,我们把这种差异交做单核苷酸多态性-SNP,很多SNP与个体的健康状况都存在密切的联系,这包括糖尿病、癌症等等。

大量研究表明:不同区域的SNP都可能会影响基因表达,只是作用模式不同,今天我们就看一看不同区域SNP是如何影响基因表达的。

1、非同义编码SNP对基因功能的影响(CDS区域)

非同义编码SNP会直接改变基因编码蛋白的氨基酸组成(基因的改变导致的蛋白质水平上的改变),其功能取决于变异氨基酸位点是否对蛋白结构或功能起到至关重要的作用。例如:Vav1基因的一个非同义编码SNP会导致63位的精氨酸变成色氨酸,这个SNP会激活Vav1的活性,刺激Vav1依赖T细胞的抗原受体信号通路,从而影响T细胞发育。

由于蛋白行使功能需要有特定的空间结构,而且蛋白质一级序列会直接影响空间结构。但是不同位点的氨基酸对结构的影响不同,所以不同位置的非同义编码SNP也会对蛋白功能产生或轻或重的影响。大部分疾病或者有害的非同义编码SNP都是影响蛋白质稳定性,只有大约1/4上下的非同义编码SNP会对蛋白质功能产生影响。

2、同义编码SNP对基因功能的影响(CDS区域

同义编码SNP本身会不会改变蛋白质序列,因为并不是所有密码子的改变都会改变氨基酸序列,但这并不意味着这部分的SNP就对疾病没有影响。目前对于这部分的研究比较少,但其作用主要是来自于mRNA二级结构、蛋白质折叠以及细胞定位的影响

虽然这种无义突变不改变氨基酸的组成,但由于蛋白质翻译存在密码子偏好性,由常用的密码子变成不常用的密码子这个过程中,核糖体通过SNP周围的mRNA片段时速度发生了变化,而细胞内的折叠过程一般认为是与翻译同步进行的,因此这些SNP会影响P-gp(蛋白质)折叠和其转移到细胞膜的时间,从而改变与底物和抑制物的作用位点的结构。

3、内含子区域SNP对基因功能的影响

内含子在真核生物中占据很大的比例,因此在内含子区域分布的SNP数量并不少,但是其致病风险要低于CDS区域和基因调控区域。但是位于第一个内含子的SNP比其他内含子中SNP致病风险大 。目前研究表明:内含子中SNP主要依靠影响剪切位点活性来影响基因功能。剪切位点的失活可能会影响翻译,影响蛋白质序列。

4、基因调控区域SNP对基因功能的影响

基因调控区域包启动子区域、增强子区域等等,这些区域含有很多基因表达调控元件,如:转录因子结合位点。这些序列元件和调控因子(如转录因子)结合需要特定的序列组成,这些位点的SNP发生变化,就会导致与调控因子的结合能力发生改变,从而影响正常的基因表达。

5、总结

不同区域SNP的致病百分率分布

综上:不同区域SNP影响基因功能的机制可能都不相同,研究不同区域的SNP对于疾病的影响是非常有价值的。