MobiVision表观组算法介绍-ChIP

算法概览

mobivision chip可以用于分析MobiNova平台下机的单细胞表观组ChIP数据,关键分析步骤如下图所示:

image.png

Barcode矫正

MobiNova平台产生的ChIP文库示意图如下:

 

image.png

 

墨卓scChIP fastq数据为双端测序,Read 1从5‘端到3’端分别为cell barcode,umi,MEC固定序列,insertDNA。mobivision chip在处理输入的fastq数据时,首先会对Read1中的cell barcode进行矫正。若cell barcode存在于mobivision 内置的whitelist中,则该read 含有有效的cell barcode,可进行下一步分析。若cell barcode不存在于whitelist中,则该read无效,丢弃。cell barcode在与whitelist中的barcode序列进行比对时,每个10个碱基,hamming距离<=1即可通过。在输出的valid reads中,read 1序列对应的cell barcode为矫正后的cell barcode。cell barcode及UMI序列,存于read id,而非read sequence。

对于cell barcode通过纠正的reads,还需进一步去除adaptor。Read 1需要去除其3'端的MEB序列及其5‘端的MEC序列的反向互补序列,Read 2 需要去除其3’端的MEC序列,adaptor trimming允许的错配率为0.1。经过trimming处理后,得到valid and clean fastq,可用于后续比对。

 

Alignment

mobivision chip比对使用了内置的bowtie2软件,为双端比对,输出.bam结果比对文件,即包含mapped reads,也包含unmapped reads。

对于比对得到的bam文件,作进一步过滤去重处理,仅保留双端比对,且MapQ >= 30的alignments,仅保留长度 <= 2000bp的alignments,根据比对信息中的cell barcode、染色体名、比对起点和比对终点,去除重复的片段,得到过滤去重后的filtered.bed文件,并利用该文件生成可视化的bw文件。若该样本为双物种样本,则每个物种各生成一个对应的bw文件。

Peaks Calling and Annotation

使用mobivision chip内置的macs2软件,以去重过滤处理后的filtered.bed进行peak calling。若不指定peaks类型,则默认使用narrow peak type,若需call broad peak,则需指定--peaktypebroad。若指定了--control,则call peak时,以IgG数据作为control,矫正背景噪音。最终输出以.narrowPeak或.broadPeak为后缀的peaks文件。对于得到的peaks文件,进行注释,注释原则如下:

启动子区(promoter region)是指转录起始位点(transcript start site)上游1000bp,到下游100bp的区间(-1kb,+100);

distal peak是指该peak距离离它最近的TSS不超过200kb,且其不位于启动子区域;

distal peak又指peak与某一转录本有重合,但是,其既不属于上述情况的promoter region,也不属于上述情况的distal peak,这种peak也称为distal peak;

除以上三种情况,其他peak均称为intergenic peak。

Valid Fragments

Valid Fragments即fragments in peaks,定义为fragment有1个碱基落于peak内,即判定为fragmentsInPeaks。用该数据作为输入,进行cell calling。

Cell Calling

image.png

mobivision chip目前过滤细胞采用动态阈值策略进行细胞barcode筛选:首先将所有barcode按其落入peak区域的片段数降序排列,取期望细胞数N(默认3000)的95分位数位置(即第2850位当N=3000时)对应的片段数作为m值;然后将m/10设为判定阈值,所有片段数超过该阈值的barcode均被识别为有效细胞。例如当N=3000且m=20000时,阈值设为2000,此时所有片段数超过2000的barcode将被保留(图示案例筛选得到9000个细胞)。该方法的优势在于能根据数据特征自动调整筛选标准,确保不同规模数据集都能获得可靠的细胞识别结果。

Report Generation

根据上述分析结果及中间数据,对本次样本分析进行汇总,包括sequencing、mapping、cell、targeting、t-SNE Projection五个板块。

1. Sequencing: 主要对输入文库的测序质量进行统计;

2. Mapping: 对文库的比对结果进行统计;

3. Cell:对最终call cell得到的结果矩阵进行统计;

4. Targeting: 对应fragments及peaks的注释信息进行统计;

5. t-SNE Projection:使用LSA降维,t-SNE映射处理,Louvain聚类。