您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息

测序数据不好?是不是建库出了问题?!

2019/5/26 1:22:06发布190次查看
hb190313
测序数据不好?是不是建库出了问题?!
——从测序数据看文库构建
高通量测序中的文库构建指的是在dna两端连接特定的接头从而使其符合测序平台要求的过程,在高通量测序过程中,文库质量直接影响最终测序数据的质量,打个比方,如果文库上机测序的浓度很低,样本在flowcell上扩增所形成的dna样本簇就会很少,测序数据量也将减少,这就可能导致测序失败,所以我们说文库的质量控制和质量评估也是ngs中的关键步骤。
文库如何质控?
评估文库质量的方法有哪些?
n 文库质控:文库在上机之前都有会进行质量检测,质量检测合格的文库才会上机测序。文库上机之前的文库质控主要包括文库片段大小和文库浓度的质控,具体质控标准和实验设计见往期推送:文库质检方案的合理设计--文库分布、文库浓度、文库质量(超链接:h/t/t/ps://mp.weixin.qq.c/o/m/s/im5emwep1by6moqrxoebfw)。
n 文库评估:文库评估方法除了文库大小和浓度之外,还包括文库转化率、文库复杂度、均一性、准确性和覆盖度等。
1)文库转化率:是评估文库质量的重要指标,它指的是文库中两端都连上接头的目的片段占总片段数的比值,也代表测得产量与理论最高产量之间的比值,这里的理论最高产量考虑了pcr的扩增效率问题及纯化产生的损失。计算方法如下:
理论最高产量=输入量×(1+pcr扩增效率)(pcr循环数)×(纯化回收率)(clean up数)
为什么说文库转化率是重要指标呢?这是因为只有双端都连接上接头的目的片段才能在flowcell上面通过桥式扩增形成簇,最终完成测序过程,而不是双端都连上接头的目的片段最终都不能完成测序过程,视为无效片段,如果这样的片段过多直接影响最终输出数据的过少,甚至可能直接导致测序的失败。
图1.双端带接头的dna片段在flowcell上扩增图
2)文库复杂度:指的是文库中dna序列的复杂程度,一定的文库复杂度对后期测序数据的分析尤为重要,复杂度高的文库测序得到的数据重复读数少,可以带来更多有意义的信息,反之,低复杂度的文库在信号读取时往往产生簇信号混杂,易产生低质量的测序数据。
文库复杂度与input样本质量、文库的转化率、文库扩增时循环数有关。当文库的转化率越高时,能从样品种捕获更多的特异分子,文库复杂度就越高;当输入样本量越低或文库扩增循环数越多时,文库中不能带来有意义信息的重复读数就会增多,则文库的复杂度越低。
表1.测序数据关键参数比较
sample input
library prep
uniquely mapped
duplication rate
transcripts detected
genes detected
4 μg
a*
69%
31%
111.370
20.547
b*
76%
24%
112.136
21.016
500 μg
a*
64%
36%
109.810
20.134
b*
71%
29%
110.690
20.644
3)均一性:指的是读取数据在基因组或目标区域的分布均一程度。其生信分析图如图2所示,一般认为覆盖越均匀,达到特定深度所需的测序数据就越少,覆盖均一性的偏向通常是在文库制备和文库扩增步骤中引入的,也就是说,覆盖均一性很多时候取决于gc含量。
图2.测序数据均一性
4)准确性:
ngs文库制备的准确性越高,你对变异报告的信任程度就越高。核苷酸错误通常在pcr扩增以及测序过程中引入。测序错误通常低于1%。通过使用高保真pcr试剂,可尽量减少文库扩增的错误。ngs对照样品也有助于评估ngs流程的准确性。 
图3.pcr扩增存在一定的错配率
5)测序深度和覆盖度:
假设对长1000 bp的目标区域进行捕获测序,每个read长10 bp,总共得到3000个reads,把所有的reads对比到目标区域后,1000 bp的目标区域中有990 bp的位置至少有1个read覆盖到,换言之剩余的10bp没有1个read覆盖。
则此时:
测序深度(depth)3000*10/1000=30 也就是说测序深度为30*
覆盖度(coverage)990/1000*100%=99% 这次测序覆盖度为99%
同理:
假设对长100bp的目标区域进行捕获测序,每个read长5bp,总共得到200个reads,把所有的reads对比到目标区域后,100bp的目标区域中有98bp的位置至少有1个read覆盖到,换言之剩余的2bp没有1个read覆盖。
深度(depth)200*5/1000=10 也就是说测序深度为 10*
覆盖度(coverage)98/100*100%=98% 这次测序覆盖度为98%
文库构建中的哪些步骤会直接影响测序质量?
ngs的最终目的就是得到优秀测序数据助力于下游科学研究或实际应用,其中文库构建是测序数据的重要影响因素,文库构建一般包括以下几类步骤(以dna为例):样本片段化、接头连接、分选/纯化、文库扩增。文库对测序数据的影响,具体到文库构建的每个步骤,参考表2。
表2.建库步骤对测序结果的影响
步骤
评估指标
对测序结果的影响
样本片段化
打断随机性
文库质量;测序数据的均一性和覆盖度
片段大小是否集中
文库浓度;测序数据覆盖度
接头连接
接头连接效率
文库转化率;文库复杂度;均一性;准确性和覆盖度
分选/纯化
片段大小的一致性
片段大小与测序仪大小不匹配将无法上机测序
回收效率
文库浓度;测序数据覆盖度
文库扩增
扩增偏好性
文库复杂度;均一性
扩增效率
文库浓度;文库复杂度

上海翊圣生物科技有限公司
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录