人基因组/外显子组

Q1:FFPE 样本为什么不推荐使用全基因组测序?

FFPE 样本提取的 DNA 多数存在降解的情况,基因组呈现片段化,CNV/SV 等结构性变异检出的假阳性率较高,无法体现全基因组测序在结构变异检测方面的优势,且通过增加测序深度提高变异检出准确性的成本太高。

Q2:癌症基因组学测序为什么通常选取同一个患者成对的癌组织和癌旁组织/血液样本

癌症基因组学侧重于研究肿瘤细胞特有的、非遗传因素导致的体细胞突变,因此我们需要选取患者的正常组织进行测序,以过滤 germline mutations。由于考虑到个体间 germline 突变差异很大,为避免筛选出很多假阳性体细胞突变位点,肿瘤和正常组织需来源于同一个体。

Q3:全基因组测序技术适用的研究方向有哪些?

全基因组测序可以应用于孟德尔遗传病研究、复杂疾病研究、罕见病研究、新生突变研究、药物基因组研究、疾病分子分型研究、人群队列数据库构建及群体进化研究等。特别对于包括癌症、精神分裂症、智力障碍在内的复杂疾病,非编码区变异及 CNV/SV 结构变异皆与疾病的发生具有密切的关系,全基因组测序可以结合非编码区变异信息和结构变异信息全面挖掘致病突变位点。

Q4:全基因组测序的测序深度如何选择?

测序深度根据研究目的、样本量及预期而定。30×测序深度即可检测绝大部分SNV,但如果研究目的是寻找癌组织中较大的结构变异、少数肿瘤细胞携带的丰度较低的突变,建议测序深度(一般)至少50×以上;群体重测序可以使用较低深度测序(~10×),用群体分析策略寻找相关变异。

Q5:全基因组测序相对于全外显子组测序的特点是什么?

全外显子组测序捕获基因组的外显子区域,其基因组信息约占基因组大小的1.5%;全基因组测序对于全外显子组来说,变异信息更全面。近些年非编码区突变的研究越来越多,其可与多种癌症在内的复杂疾病发生相关。

Q6:如何寻找候选变异?

寻找候选变异位点时,可利用变异注释结果,关注非同义突变、剪接突变、移码突变。a.去除千人基因组数据库中 MAF >=1%的变异;b.去除 NHLBI-ESP6500 European American群体数据库中 MAF >=1%的变异;c.去除 NHLBI-ESP6500 African American 群数据库中MAF >=1%的变异;d.推测变异的致病性。利用 SIFT/PolyPhen2/Mutation assessor/Condel/FATHMM 进行打分,预测某个变异和氨基酸置换是否影响蛋白功能。如果score<=0.05 PolyPhen2>=0.909 MA score>=1.9 Condel = deleterious FATHMM=deleterious,就推测该变异可能是有害变异。

Q7:突变位点为有效位点时使用的 depth 阈值是多少?

call 变异时 SNP InDel 均要求 depth 大于等于 4

Q8:数据中的 Duplicates 指什么?如何定义?

一般情况下,测序得到了两对或两对以上的 pair end reads 同时比对到参考序列上相同的 起始和结束位置,我们定义这种序列为 duplicates。在数据分析过程中,为了确保变异分析 的准确性,避免计算存储资源的浪费,一般会通过生信的方法去掉 Duplicate reads 后再进行 下游信息分析。

Q9:如何验证重测序的结果?

通过全基因组重测序一般能够发现 SNPInDelSVCNV 等多种遗传变异,不同的变 异类型,其验证方法也各不相同。SNPs 可以通过 PCR 扩增包含该 SNP 位点的区段,并测 序;或采用 SNP 分型检测的方法验证;b. 小片段的 InDel,可通过 PCR 扩增,利用 Sanger法测序进行验证;c. CNVs 可通过 Real-time PCR 对存在拷贝数变异的片段进行扩增,并根 据 CT 值估算不同个体的拷贝数变化倍数;d. 小的 SVs 可通过 PCR 扩增和测序辨别,而大 的 SVs 则需要通过亚显微方法发现,如 FISH 等。

Q10:外显子测序适用于什么种类的研究?

在人类基因中大约有 180,000 个外显子,外显子 CDS 区大小占人类基因组的 1~2%,约30 Mb。人类基因组的蛋白编码区大约包含 85%的致病突变。外显子组测序主要是针对编码 区进行检测,所以外显子组测序主要适用于编码区潜在变异引起的疾病研究。测序性价比高, 尤其适合高深度、大样本量的测序,可找出常见突变及低频突变。主要应用在孟德尔遗传病 及肿瘤等复杂疾病的研究。

Q11:外显子测序可以检测哪些类型的变异?

外显子捕获是一个杂交捕获的过程,不同外显子区段的探针杂交效率并不完全相同,进而不同外显子区段的覆盖深度存在差异,因此通常外显子测序不能用于 CNV 的检测。

Q12:外显子测序为何强调“有效测序深度”,与“测序深度”的概念有何区别?

有两个概念需要明确,测序深度:测序得到的总碱基数与目标区域大小的比值;捕获效率:比对到参考基因组中目标区域的数据量占比对到参考基因组上总数据量的比例。

Q13:疾病基因组外显子测序深度怎么考虑?

有研究表明,使用外显子组测序,相比于常用的 50×有效测序深度,100×有效测序深度 下,功能性 SNPs ( coding SNPsmissense SNPs)和罕见变异(Rare SNPs, MAF<0.5%)的 检出数量以及目标区域中 20×以上覆盖深度碱基所占的比例,均达到一个很平稳的状态,可 以得到最显著、最可靠的变异检出。

Q14:FFPE 样本和 ctDNA 研究适合用外显子测序吗?

适合,FFPE 样本和 ctDNA 由于样本自身的特性,存在 DNA 片段化、起始量不足等情况,高深度的外显子测序可以通过增加变异位点 reads 的支持数,提高变异检出的准确性。

Q15:癌组织为什么要采用高深度测序?

相对于遗传病而言,肿瘤组织样品中突变位点的等位基因频率较低,一方面由于肿瘤细 胞在肿瘤组织中的占比偏低,另一方面则由于癌症发展后期产生的突变仅存在于极少量的肿 瘤细胞中,采用高深度测序可以尽可能全面的检测到与癌症发生发展相关的变异。通常推荐 的外显子测序深度为,癌组织大于 100x,癌旁组织/血液大于 50x

Q16:一般用什么方法来验证 call SNP 准确率?

Sanger 测序和芯片分型, Sanger 测序被认为是测序中的金标准

动植物基因组变异检测

Q1:重测序都可以检测哪些遗传变异?

重测序目前能够检测到的遗传变异包括 SNP(single nucleotide polymorphism, 单核苷酸 多态性)、Indel(Insertion or deletion, 插入或缺失)、SV(structure variation, 结构变异)CNV(copy number variation, 拷贝数变异)等。

Q2:动植物基因组重测序,一般变异检测分析时参考基因组的 mapping 率要达到多少?

一般建议 90%以上比较好,最低要求在 70%以上,比对上的 reads 才好进行分析,太低时数据有效利用率降低。

Q3:二代测序检测变异与芯片的比较?

与传统的分子标记和芯片相比,二代测序具有周期短、密度高、性价比高、检测全面等 技术优势。芯片只能检测已知的 SNPCNV,而不能检测 InDelSV,以及新变异或开发新 标记。

Q4:变异检测测序深度如何选择?

当测序深度为 5X 以上时,个体对基因组覆盖度约 90%,能检测到的个体 SNP 数约 60%。 当测序深度为 10X 以上时,个体对基因组覆盖度约 95%,能检测到的个体 SNP 数约 90%。 对较大群体进行 SNP 检测时低深度数据可以进行缺失推断以及个体间存在弥补效应,可提 高群体覆盖度,因此建议测序深度不低于 5X;而当个体或群体较小时进行 SNP 检测,建议 测序深度不低于 10X

Q5:测序个体与参考基因组比对,比对率较低的原因有哪些?

可能原因有:a. 受参考基因组(reference)组装质量影响;b. 所测物种与参考基因组的 亲缘关系较远;c. 样品的特殊前处理或者相对于参考基因组此样品自身的变异太大,导致 比对率相对较低;d. 样本存在外源污染(如:植物中存在细菌污染)。

Q6:样本量选择多大合适?

样本量大小与样本类型和研究目的相关。例如进行群体进化研究推荐 30 个样本以上, 因为从统计学上说 30 个以上才属于大样本;对于进行基因挖掘的项目来说,无论是利用自 然群体进行 GWAS 分析或是用家系群体进行连锁分析,都是群体越大越好,一般的情况下 进行 GWAS 分析的样本推荐 300 个样本以上,对于家系群体推荐 200 个以上。

转录组测序

Q1:如何确定研究物种有无参考基因组?

根据所研究物种的拉丁文名,可在 NCBI (http://www.ncbi.nlm.nih.gov/)Ensembl (http://asia.ensembl.org/index.html)JGI (http://genome.jgi-psf.org/) 中搜索是否有该物种的基 因组信息,也可在其他专门介绍某种物种的网站寻找参考基因组。

Q2:是否一定要求设置生物学重复以及重复次数?

目前没有生物学重复的实验可能发不了 SCI 文章,重复设置原则上越多越好,但是考虑 到现实条件,重复设置≥3。注:3 个生物学重复,不等同于将 3 个样品的 RNA 等量混合后 测序。

Q3:RNA 检测结果的 RIN 值过低,对分析有什么影响?

一般来说,RIN 值过低说明 RNA 有部分降解,这可能导致:转录组组装结果偏短,或者部分基因缺失;表达差异分析结果不可靠,差异表达结果被夸大。

Q4: 真核核糖体 RNA 去除的话,去除率一般多高?

去除真核生物 rRNA kit 主要是 Ribozero 公司的,针对物种特异。根据长期项目经验, 绝大多数真核生物去除 rRNA 的效率大于 90%

Q5:血液样本送样,有哪些注意事项?

血液样本采血建议使用 EDTA 或柠檬酸钠作为抗凝剂,可离心分离出白细胞、或全血加trizol 等方法进行处理,冷冻后,-80°C保存,干冰运输。

Q6:肿瘤样本准备时需要注意哪些事项?

肿瘤样本活性较高,RNA 在常温条件下短时间内会几乎全部降解。因此,建议样本取 得后立即液氮速冻(要充分),-80°C保存,干冰运输。尽可能减少组织样本在常温空气中 暴露时间,保证 RNA 的完整性。

Q7:请帮助理解一下 RNA 测序中的 Duplicates?

按照 illumina 平台为例,普遍的 duplicates 比例大约在 10%左右。对于 RNA 来说,因为 难以区分是 PCR duplicates 还是 RNA 高表达形成的相同的模板,则无法去除 duplicates。从 而影响转录组表达量的准确性,尤其是小和中等表达量的转录本的准确性。

Q8:RNA-Seq 推荐测序数据量与基因组大小有关吗?

RNA-Seq 推荐的测序数据量,主要与基因数量有关,不同物种基因组大小相差比较大, 但是编码基因的数量相差并不大,一般物种在 3 万左右。所以对于一般物种的 RNA-Seq 数 据量,10M clean reads 是足够的。一般 HiSeq 平台推荐 10M clean reads 数据量,为了更准确 全面的数据结果,也可以推荐 20M clean reads,所以现在一般都是 6G 数据。

Q9:测序后有何验证方法?

实验验证的方法最常见的是通过实时荧光定量 PCR(qRT-PCR)技术来验证测序结果。 还有 FISH(原位荧光杂交)、微阵列芯片技术、Northern blot 等。 功能验证一般是基因敲 除、敲低或过表达,转基因等。

Q10:分析到的差异基因数目偏少,能否调整参数重新分析?

首先确认所取样品的时间点是否严格控制,明确是两样品间本身差异基因就少,还是其 他原因,确定无误后方可适当调整“FDR <= 0.05 and | log2FC | >= 2”这一删选显著差异基 因的条件。

Q11:如何从得到的众多数据中筛选出自己感兴趣的部分?

拿到数据后,首先检查测序质量有没有问题,确定本次测序质量合格后可以先不忙看差 异表达分析的结果。因为可能差异基因数目太多,看起来眼花缭乱。建议直接查看 GO KEGG 功能富集部分,从其中挑选出自己研究感兴趣的功能分类及代谢通路。对应的 excel列表中可以查看到有该功能对应的基因 ID,之后再去查看这些基因在不同样品中的表达差 异。

Q12:实验设计是基于某种处理,希望找到调节相关代谢通路的基因,分析到的差异基因没有 注释到设定的代谢通路?

因为 mRNA 表达具有时空特异性,所以在取样设置的时候,一定严格控制在该通路起 作用阶段。

Q13:做植物研究时,KEGG 代谢通路富集到 human diease 以及 drug development 是为什么?

KEGG 本身是一个非常庞大的代谢通路网络,某些人类疾病或者治疗相关的基因,在有 些植物样本中可能存在同源或者高度保守的区域,这样在植物的研究中,可能会注释到人类 相关的基因上。

非编码 RNA 测序

Q1:Small RNA 分析需不需要参考基因组?

需要,因为新 miRNA 的预测必须要通过其前体形成的二级结构进行分析,没有参考基 因组,则无法知道其前体可能的二级结构。

Q2:如何验证 miRNA 的表达量?

设计 miRNA 专门的发夹状反转录引物,定量 PCR 验证其表达量。

Q3: Q:所有的物种 small RNA 都主要分布在 20-24 个碱基吗?

不是,这取决于物种和样品特性,比如有些样品就会在 30nt 左右表现出高丰度。

Q4:小 RNA 测序对样品提取有什么特殊要求?

提取总 RNA 时避免丢失小片段 RNA。如果直接提供 small RNA 样品,可以使用 small RNA提取专用试剂盒来进行提取。

Q5:为什么小 RNA 的实验结果中会存在降解的 mRNA 序列?

由于 total RNA 常发生轻微的降解,而生物体内也有自然的降解过程,因此数据中就会 含有小部分 mRNA 降解片段。但通常这个比例很低,并且取决于样品 total RNA 的质量。

Q6:植物在 miRNA 预测中有什么差别?

植物 miRNA 可与 mRNA 的编码区完全互补配对,并通过诱导 mRNA 降解而发挥抑制 表达的作用,我们可以直接通过比对来筛选靶基因。动物 miRNA 则可与 mRNA 3UTR区部分互补配对结合,进而抑制翻译的进行,一般的,miRNA mRNA 的配对区域位于miRNA 5’端的 2-8 个碱基,称为种子区,只要种子区能与 mRNA 互补配对即可发挥作 用,这也是一个 miNRA 能够调控数百条 mRNA 的原因。

Q7:lncRNA 研究适用于哪些研究方向?

适用于医学领域所有研究方向,主要是作为发现和鉴定与疾病的发生、诊断和治疗相关 的生物标志物。目前涉及最多的疾病是人体各大系统的癌症,此外,还包括免疫、神经及脑、 骨骼、肝、肺等各组织的发育方面的研究。

Q8:为什么 lncRNA 要测链特异性文库?

测序过程中保存了 RNA 方向信息,一方面可以使基因表达定量更为准确;另一方面能够准确区分转录本来自于基因组的哪条链,可以更好地鉴定 antisense lncRNA。

Q9:lncRNA 测序与芯片方法对比有哪些优势?

与芯片方法相比可以增加 novel lncRNA 的预测。

Q10:CircRNA 文库构建的方法中,去除 rRNA 链特异性建库,与去除 rRNA 线性消化链特 异性建库的优缺点?

a.去除 rRNA 链特异性建库。优点:不需要使用 RNase R,减少实验部分 RNA 损失,可 以同时研究 mRNA, lncRNA, circRNA;缺点:只能研究部分高表达的 circRNA,无法大规模 检测 circRNA,需要较高的测序数据量,准确度差些;
b.去除 rRNA 线性消化链特异性建库。优点:circRNA 检出量高, 是第一种方案的 20 倍,circRNA 鉴定准确度高;缺点:由于消除了线性 RNAmRNAlncRNA circRNA 表达水 平将会失真;

c.LncRNA 数据(10 G clean data)鉴定到 1 千到 2 千个环状 RNA,数量级在千位;而富集 方法可鉴定到 2W-3W 个环状 RNA,数据量级在万位;两种方式可根据客户研究目的和需求 进行针对性推荐,如客户初期研究,可进行 lncRNA 建库测序方法,具有较高性价比;如果 是针对性的研究环状 RNA,可推荐环状 RNA 标准建库方法;

Q11:哪些物种可以研究 lncRNA?

lncRNA 分析,对物种有以下要求:a. 物种为真核生物;b. 物种具有参考基因组,至少拼接到 scaffold 水平;c. 具有较为完整的注释。

Q12:lncRNA 测序,构建文库时为什么要去除 rRNA?

lncRNA 中只有 lincRNA 3’端带有 polyA 结构,其他 lncRNA 没有 polyA 结构,而rRNA 在总 RNA 中占比高达 80%左右,因此,为了不浪费测序数据量,获得更全的 lncRNA信息,需要去除 rRNA

Q13:lncRNA 靶基因预测是怎么实现的?

LncRNA 作为调控性 RNA,调控靶基因的方式主要有 co-location co-expressionco-location 靶基因预测基本原理认为 lncRNA 的功能与其坐标临近的蛋白编码基因相关,于是 将 lncRNA 临近位置的(上下游 100K)蛋白编码基因筛出来作为其靶基因。co-expression靶基因预测基本原理认为 lncRNA 的功能不依赖于和编码基因的位置关系,而和与其共表达 的蛋白编码基因相关,可通过样本间 lncRNA 与蛋白编码基因的表达量相关性分析或共表达 分析方法来预测其靶基因。

Q14:lncRNA 测序数据中 mRNA 的定量效果如何?

用人的样品作为标品,mRNA 定量与 qPCR 定量斯皮尔曼系数能够达到 0.85

Q15:lncRNA 如果需要进行验证,如何进行引物设计?

lncRNA 最短的长度是在 200nt,可满足荧光定量 PCR(100-200nt 目的片段)的要求。 不过由于 lncRNA 的保守性比较低,组织特异性比较强,扩增效率比较低,可能需要设计多 对引物进行尝试。

Q16:想用 qPCR 做表达量的验证,设计引物的时候要特别注意什么?

如果 lncRNA mRNA 有重叠,应在两种序列特异的部分设计引物。

Q17:circRNA 与 lncRNA 的结构和功能的差别是什么?

结构上:circRNA 没有自由的 5’端和 3’端;功能上:circRNA 功能研究比较单一,现 在对于其是否能够像 lncRNA 一样在染色体水平、蛋白质水平上具有调控作用,尚未可知, 这些也是现在研究的方向。根据已有研究发现, circRNA 可以发挥海绵效应吸附 miRNA, 可以作为竞争性内源 RNA

Q18:如何预测 circRNA?

因为在 circRNA 纯化收集的过程中,需要去除核糖体 RNA 和线性 RNA,然后打断成片 段进行建库测序。在得到测序结果后,需要对 circRNA 进行预测鉴定。由于 circRNA 头尾 相接易环化,如果测序结果能获得接头序列(Jumping Sequence),便认为是 circRNA

Q19:样本间鉴定 circRNA 的差异大吗?

大。样本均一化操作在 circRNA 中是错误的,因为 circRNA 不属于上面所提到的“绝大部分基因”,这部分基因在均一化时我们认为几乎没有变化,因此它的含量存在较大变化。

Q20:circRNA 需要做生物学重复吗?

需要。至少 3 个,越多越好。

Q21:环状 RNA 验证方法?

定量验证:根据 junction 位点设计引物进行 qPCR 验证;功能验证:使用 circRIP 方法验 证 miRNA Sponge 功能;使用 miRNA 敲除及拮抗等模拟物进行功能验证。

Q22:环状 RNA(circRNA)是不是很稳定、不存在降解?

CircRNA 为成环的 RNA 分子,其特性即是不易被 RNase R 降解。但是,实际上,降解 分两种,一种是 RNase R 的降解,一种是水解。水解是不区分环状或者非环状的过程,并 且事实上环状更容易被水解,因为环状的碱基基团靠的近,羟基更容易去攻击磷酸羟基键。 将 circRNA 放在室温或者 60°C或者在镁离子作用下,它们依然较容易被水解。

全基因组甲基化(WGBS)

Q1:全基因组甲基化(WGBS)的测序原理是什么?

全基因组甲基化测序的重要步骤是样本的重亚硫酸盐处理,可将所有未甲基化的 C(胞 嘧啶)转化为 U(尿嘧啶),而已被甲基化的 C 则不受影响,在随后的 PCR 反应中,U T(胸腺嘧啶)替代。因此,可根据 CT 的存在情况分析是否甲基化。

Q2:全基因组甲基化的测序深度为多少?

为了进行全基因组水平的甲基化分析,建议测序深度为物种基因组的大小的 30-50 倍。如果是有生物学重复的话,可以是 5-15X 测序深度。

Q3:全基因组甲基化测序有哪些优势?

在全基因组水平,单碱基分辨率检出甲基化位点,不仅能够高精度发现 CpG 岛等常见 区域的甲基化水平的变化,还能够分析 gene body 区,基因间区等区域的甲基化水平的差异, 分析甲基化对染色体的状态以及基因结构变化的影响,从多维度分析解决生物学问题。

Q4:Bisulfite 的转化率要求多少?

要求 Bisulfite 转化率达到 99%以上。如果样品的 DNA 不存在不发生甲基化的 DNA 作 为对照,都会在样品中混入 control DNA 来验证 Bisulfite 的转化率,一般用噬菌体 phix 文库 作为对照。