海普洛斯自主的分子技术涵盖湿实验室NGS工作流程中的所有主要步骤,以实现高产量、高质量的核酸分离及测序文库构建,同时最大限度地减少测序错误。
01
CUBE-ctDNA
CUBE-ctDNA是海普洛斯自主开发的单分子编码技术,用于提高超高深度测序的信噪比。在测序文库制备过程中,该技术在每个双链DNA分子模板两端分配两个单分子条形码(UMI)。基于该UMI,每个测序序列均可追溯至原始DNA模板分子。真阳性突变会出现在同一UMI的绝大多数测序序列中,而PCR扩增或测序错误引入的假阳性突变,则仅出现在小部分同一UMI的测序序列中。此外,通过双链DNA中的序列互补特性,可进一步过滤原始双链DNA分子中的单链假阳性突变。
在性能分析验证中,通过CUBE-ctDNA技术,可有效将NGS背景噪音从行业平均水平的0.1%降低到0.00058%。借此海普洛斯可将ctDNA检测限降低至0.005%水平。
在性能验证研究中,与某国际分子诊断公司的cfDNA提取试剂相比,Effentration®有更高的cfDNA分离效率及更高的平均测序深度。
02
Effentration®
DNA提取是NGS突变检测的第一个关键步骤,海普洛斯专门开发了有效的cfDNA提取技术-Effentration®,通过构建拥有自主配方的裂解液、结合液和洗涤液体系,可有效富集低丰度的cfDNA。
03
HAPCap®
在文库制备过程中,需要对原始DNA模板进行PCR扩增。通常ctDNA在cfDNA中占比很少,而PCR扩增偏好性会降低ctDNA被检测到的可能性。为解决此问题,海普洛斯开发了HAPCap®。如图所示,HAPCap®通过乳液PCR技术,使模板DNA分子在物理分离的微量油包水液滴中扩增,从而有效捕获了低丰度ctDNA,提高了ctDNA突变检测灵敏度。
HAPCap®技术流程图
近些年来,海普洛斯开发出数款性能优异的生物信息学软件、机器学习模型和数据库,形成底层数据处理基础设施,可以有效地处理复杂的测序数据,并有效地消除错误,准确检测和解释低频突变。
生物信息学软件
01
Fastp
为改进数据预处理性能,海普洛斯开发了Fastp,其集成质量控制、接头序列去除、低质量碱基过滤及UMI预处理等功能,实现了原始下机数据一体化预处理。Fastp基于C++语言,支持多线程,运行速度是同类软件的两至五倍,同时能够提供相当甚至更好的数据过滤结果。
Fastp于2018年9月在Bioinformatics上发表,至今获引超过6600次,获引次数在过去五年中国研究人员发表的论文中排名前五,并在GitHub上作为开源工具供大家使用。
02
Gencore
Gencore是海普洛斯开发的一款去除冗余测序数据的软件。该软件可提供快速、高效的PCR去重和同源序列聚类功能,同时能够处理UMI信息,提供丰富的统计报告,以促进质控和下游分析。
PCR重复是对同一DNA模板进行多轮PCR扩增和测序产生的。PCR重复可能包含导致假阳性突变的错误,其被大多数分析流程去除。然而,现有PCR去重软件大多数无法处理UMI数据,或者速度缓慢、内存密集,且缺乏为质控及下游分析提供信息的统计结果。Gencore成功攻克了同类软件的难题。
Gencore于2019年12月在BMC Bioinformatics上发表,并在GitHub上作为开源工具供大家使用。
03
MutScan
MutScan是海普洛斯开发的一款用于目标突变检测及可视化的高性能生物信息学软件。该软件旨在提高检测敏感性,并为目标突变提供有效验证。
与传统多步骤的突变检测流程相比,MutScan使用高容错性的字符串搜索算法,直接从原始FASTQ文件中搜索目标突变,进一步通过网页版突变报告检验目标突变的可靠性,用户可以通过多个指标,如突变支持数和碱基质量等,综合评估突变的可信度。
MutScan于2018年1月在BMC Bioinformatics上发表,并在GitHub上作为开源工具供大家使用。
04
GeneFuse
GeneFuse是海普洛斯开发的一款快速、灵敏的生物信息学软件,用于目标融合基因的检测及可视化。
GeneFuse专注于检测具有临床意义的已知融合基因,不同于大多数依赖于将测序序列与参考基因组比对的软件,GeneFuse通过直接扫描原始测序数据来检测基因融合,这使它能够规避由于比对错位而引入的假阳性或假阴性问题,因此具有更高的敏感度和特异性。
GeneFuse于2018年5月在International Journal of Biological Sciences上发布,并在GitHub上作为开源工具供使用。
05
FineMSI
FineMSI是海普洛斯开发的一款用于分析微卫星位点、确定MSI状态的生物信息学工具。
FineMSI 基于EMD算法(Earth Mover's Distance),通过对MSI高度不稳定和低度不稳定两类肿瘤NGS测序数据进行训练,评估两个类型之间的差异,EMD值即表示MSI不稳定程度。
与现有金标准相比,FineMSI覆盖更多微卫星位点。在验证研究中,与其他NGS检测方法相比,FineMSI表现出较更高的灵敏度和特异性,反映了FineMSI作为确定MSI状态的准确方法的潜力。
机器学习
机器学习在复杂图像去噪及目标识别方面,具有强大的能力。海普洛斯建立了机器学习工作流,并不断用真实世界数据进行模型训练,以消除测序数据中的背景噪音,减少人工干预,提高癌症低频突变的检测能力。
海普洛斯开发了已获得专利授权的工具MrBam,该工具通过使用大量背景噪音和假阳性突变位点数据进行机器学习模型训练,实现变异噪音过滤。同时,海普洛斯也开发了用于分类问题的机器学习方法,如TCRnodseek,用于区分良恶性肺结节,对早期肺癌进行检测。
01
TCRnodseek
为了能够对良恶性肺结节进行准确分类,海普洛斯与四川省肿瘤医院联合开发了TCRnodseek。TCRnodseek使用监督式机器学习方法支持向量机,整合了TCR特征及临床信息。在一项包括99名个体的研究中,TCRnodseek能够正确区分大多数良恶性肺结节,灵敏度为76%,特异性为91%,准确率为84%,AUC为0.8。相关临床结果于2022年10月发表在Signal Transduction and Targeted Therapy上。
Luo, H., Zu, R., Huang, Z. et al. Characteristics and significance of peripheral blood T-cell receptor repertoire features in patients with indeterminate lung nodules. Sig Transduct Target Ther 7, 348 (2022). https://doi.org/10.1038/s41392-022-01169-7
数据库
01
数据库
凭借长期丰富的分子诊断服务经验,海普洛斯建立了两大数据库:
1.HapKnow,收录140多万条肿瘤体细胞突变注释;
2.HapHeal,收录130多万条遗传性突变注释。
这两个数据库已整合在海普洛斯专有的报告注释系统HapReport中,实现了突变的自动化报告,以及对其临床意义的简明解释。
海普洛斯已建立端对端的集成应用,作为数字化、自动化及智能化实验室运作支柱。
01
HapLab®
海普洛斯自主开发的LIMS系统HapLab®,整合LIUDUS®平台所建工具,基于信息流,可实现端对端NGS工作流程的闭环管理。
HapLab®包括四个核心模块:
1.订单管理模块。该模块对临床样本进行系统录入和进程跟踪,以确保样本完整性和妥善管理;
2.湿实验工作流程管理模块。该模块用于自动化项目资源分配,实验工作流程组织和数据化处理,从而减少用户干预,提高实验运行效率,以及维护数据完整性;
3.生物信息分析模块。该模块具有自动并行分析功能,用以处理复杂的多步骤生信分析流程,大大提升了分析效率;
4.报告注释模块。该模块整合病人多维度信息,可在单个病人或群体层面,对数据进行便捷管理和挖掘。
02
HapYun®
HapYun®是海普洛斯开发的一站式云平台,用以规模化的数据管理、储存、分析和交付。
HapYun®配置有丰富的模块化工具,开箱即用的工作流和工具库,可实现大规模、高效、定制化的高通量基因组数据分析。