感觉性周围神经病

首页 » 常识 » 问答 » 慢性疼痛的发病率达50,帮你认清疼痛
TUhjnbcbe - 2021/5/17 20:37:00
采用超高通量的PromethION纳米孔测序平台,中山大学中山眼科中心眼科学国家重点实验室谢志团队对名来自18个不同省份的平均年龄为42岁的无亲缘关系的中国人(其中名男性,名女性)进行纳米孔长读长全基因组测序,共生成20.7Tb的过滤数据,平均每个个体数据量为51Gb,即平均测序深度为17X。使用Sniffles,NanoVar和NanoSV三个结构变异识别工具,对50bp以上的结构变异进行检测和分类,最终平均每个样本检测到个高置信度的结构变异。其中PromethION纳米孔测序,是在百迈客进行的。

英文题目:StructuralvariantsinChinesepopulationandtheirimpactonphenotypes,diseasesandpopulationadaptation

中文题目:中国人口结构变异及其对表型、疾病和人口适应的影响

期刊:BioRxiv

时间:年2月10日

合作单位:中山大学中山眼科中心眼科学国家重点实验室谢志团队

导读

中国人群体的结构变异及其对表型、疾病和群体适应的影响完整地描述遗传变异是人类基因组研究的基本目标。虽然基于短读序列(SRS)技术的snv和InDels的发现已经取得了重大进展,但由于SRS对频繁发生在复杂结构重复区域的SV的检测能力有限,SV的发现和基因分型一直受到阻碍。长读序列(LRS)提高了发现结构变异(SV)的灵敏度,有助于更好地理解人类基因组中的SV谱。

本文首次在中国人群中进行了基于LRS的SV分析。对名不相关的中国人进行了全基因组LRS,并进行了68项表型和临床测量。发现了一个由,个非冗余SVs组成的复杂景观,其中53.3%是新的。这些高质量的SVs是经PacBio高保真测序和PCR实验高质量验证的。SVs的总长度约占人类参考基因组的13.2%。我们注释了1,个功能缺失的SVs,影响1,个基因的编码序列。我们发现了SVs与表型和疾病的新关联,如与贫血相关的HBA1/HBA2/HBB罕见缺失以及与身高相关的GHR常见缺失。此外,我们还鉴定了与人类免疫相关的SV候选基因,以区分中国人亚群。我们的研究以前所未有的细节揭示了人类SVs的复杂状况,并为它们在表型、疾病和进化中的作用提供了新的见解。

研究结果

1.SVs检测及验证

本文通过PromethION平台(ONT)对名不相关的中国人进行了全基因组LRS。在所有的个体中,男性例(50.9%),女性例(49.1%)。年龄分布在22~81岁,中位年龄42岁。人来自于北方、人来自南方、53个人来自西南方,(图1a)。通过健康筛查获得了人的68种表型和临床测量结果。

共产生20.7Tb数据,平均每人51Gb数据量,即平均测序深度为17X。通过和参考基因组GRCh38进行比对,碱基mappingrate从89.0%到96.2%不等,平均94.1%(图1b)。平均错误率为12.6%,低于最近的研究(15.2%),缺失、插入和替换(错配)的比例分别为5.1%、3.4%和4.1%(图1c)。

为了获得可信的SVs,作者使用了3款软件进行检测:Sniffles、NanoVar和NanoSV,保留至少被两款软件检测到的SVs(图1d)。经过过滤,我们在每个样本中识别出18,个高可信的SVs,(分布在15,到22,之间)(图1f)。DELs和INSs占多数,每个样本平均包含8,个DELs(44.4%)、9,个INSs(53.8%)、个DUPs(1.4%)和74个INSs(0.4%)。

图1样本,数据集和检测到的SV概览

2.与已发布的SV数据集的比较

本文将从每个SV类型的所有样本中检测到的SVs合并,构建了一组个非冗余SVs,包括67个DELs,个INSs,个DUPs和个INVs(图2a)。将我们的数据与之前发布的使用NGS或TGS平台生成的数据集进行了比较,与基因组变异数据库(DGV)、基因组聚合数据库(gnomAD)和人类基因组多样性panel(HGD)的交集SVs分别为、和个(图2b)。

值得注意的是,尽管在我们的数据集中INSs和DELs的总数相似,但是基于LRS的研究LRS15恢复INSs的数量比基于SRS的数据集大得多,这说明LRS技术在检测INSs方面特别有效(图2c)。

3.SVs的基因组特征

SVs并非随机分布在染色体上,SVs的数量与染色体长度显著相关(图2d)。染色体臂末端的数目普遍增加,特别是DELs、INSs和DUPs(图2e)。我们发现INSs和DELs的中位长度分别为bp和bp,明显短于DUPs(bp)和INVs(bp)(图2f)。非冗余SVs总长度为.6Mb,约占人类参考基因组的13.2%,包括.7Mb的DELs、19.8Mb的INSs、.8Mb的DUPs和.2Mb的INVs(图2g)。与其他类型的INSs相比,相同类型的INSs在个体中更常见,这可能与GRCh38的DELs偏倚或INSs在中国人群中的纯化选择有关(图2h)。

图2每个SV类型的非冗余SVs属性

4.SVs的等位基因频率

本研究根据SVs的等位基因频率(AF)将其分为4类:单型、罕见型、低型和普通型,单例(56,例)占被识别的SVs总数的42.5%(图3a)。从20个样本中随机抽取个单型DELs和INSs进行PCR验证。另外,选取4个样本进行PacbioHiFi测序,平均测序深度9.35X;这4个样本用ONT平台检测出个单型,PacbioHiFi平台验证发现32个假阳性SVs。

5.SVs的功能相关性

为了进一步探索SVs潜在的功能,根据它们的基因组进行了注释。位于UTR和CDS的所有SVs中,单型SVs显著富集,提示单型SVs更可能具有遗传功能(图3b)。基于SVs的断点位置,将SVs分为3类:pLoF、WDUP和WINV,具体SVs数量见图3c。有趣的是,GO分析显示,有38个对pLoFSVs感兴趣的基因,显著富集在“免疫球蛋白受体结合”。

图3SVs的等位基因频率和功能注释

6.SVs的表型和临床影响

为了更好的理解pLoFSVs如何影响临床表型和疾病,我们使用GWAS、OMIM和COSMIC对这些SVs及其相关基因进行了注释。在个SVs中,有58.1%至60.2%属于单型(图4a),与之前的结果一致,说明单型更有可能是功能性的。有1个pLoFSVs与1个基因相交,其中个基因(56.9%)在3个数据库中有注释(图4b)。

从本文的数据集中可以发现许多表型和临床相关的SVs。例如,文中发现了与贫血相关的致病变异,而这尚未被报道。结果在三个个体中发现了19.3kb的杂合子罕见DEL,包括血红蛋白亚单位Alpha1和2(HBA1和HBA2)基因,已知其功能障碍导致α-地中海贫血。此外,有一个人有27.4kb的杂合子DEL,含有基因血红蛋白亚基β(HBB),已知其功能障碍可导致严重的血红蛋白病,如镰状细胞贫血和β-地中海贫血(图4c)。

除了罕见的SVs,本研究也可以检测到与各种表型相关的常见SVs。文中在35个纯合子和67个杂合子的携带者中发现了2.4kb的DEL,覆盖了GHR(生长激素受体)第三外显子的完整区域,已知其错义突变会导致矮小和侏儒症(图4d)。

图4pLoFSVs相关的表型和疾病

7.SVs的种群进化

为研究SVs群体遗传特性,研究了以往的SNP阵列和WGS的中国北方和南方的群体遗传学数据。主成分分析(PCA)显示两组间存在明显的遗传多样性,表明种群结构与先前的描述一致(图5a)。进一步分析发现,两个亚群之间存在较大差异,共发现了15个显著信号,分布在5个染色体上(chr1,2,3,6,10,12,14和19)(图5b)。这15个信号中,有4个SVs落在了4个基因内(HCG4B、IGHG3、MUC4和SLC1A7)(图5c)。Top2位于第6染色体的主要组织相容性复合体(MHC)区域和第14染色体的免疫球蛋白重簇(IGH)区域。在MHC区域,显著分化的SVs位于HCG4B的外显子和HLA-K和HLA-U的基因间区,而MHC是已知的人类极端遗传多样性的地点,并被报道在东亚人群中进行选择(图5c)。

图5中国各亚群体SVs的遗传分化

同样值得注意的是,虽然有7个SVs在IGH基因座上显著分化,但是没有观察到单倍型(图5d),说明个体间遗传多样性,提示不同基因型IGH基因的积累和组合可能与对不同环境的免疫适应有关。此外,在可溶性载体家族成员SLC1A7的内含子中发现了bp的DEL,该蛋白具有l-谷氨酸跨膜转运活性,此前被报道为肝细胞癌的免疫相关预后标志。SVs在免疫相关区域的分化可能与中国人亚群体的遗传漂变和长期暴露于不同环境有关。

图5d不同的SVs在14号染色体和两个亚群体之间的基因型模式中聚集到IGH区域文:奔跑的酱油排版:市场部

文献下载:

bioRxivpreprintdoi:

1
查看完整版本: 慢性疼痛的发病率达50,帮你认清疼痛