MobiVision转录组结果释义

输出结果文件

mobivision quantify默认输出结果文件如下,总计16个文件,其中SAMPLEID_outs文件为软件自动生成,无需用户指定:
_flagdone 是任务运行成功的flag文件,会在mobivision quantify任务完成后自动输出;
_log 是任务运行过程中生成的日志文件;
run_analysis_cmds.txt 记录了mobivision quantify的完整命令行信息;
SAMPLEID_Aligned.sort.bam 记录了reads的比对情况,并根据坐标信息排序后输出为bam比对文件;
SAMPLEID_Aligned.sort.bam.baiSAMPLEID_Aligned.sort.bam比对文件的index文件;
raw_cell_gene_matrix 是未作过滤的原始的matrix的根目录,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz 三个子文件,通过统计bam比对文件中的比对情况获得;
filtered_cell_gene_matrix 是经过细胞筛选后的matrix的根目录,其包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三个子文件;
SAMPLEID_filtered.h5ad 是转换为h5ad形式的filtered_cell_gene_matrix,可通过第三方软件读取,从而对细胞基因表达矩阵作深入分析;
SAMPLEID_Report.json 是json形式的质控报告,可通过第三方软件读取并提取有效信息;
SAMPLEID_Report.html 是html形式的质控报告,将数据进行可视化处理,便于用户直观判断文库质量;
SAMPLEID_summary.csv 含有文库信息内容;result_mito_percentage.csv 是线粒体百分比信息文件,将细胞线粒体分布情况进行统计。

BAM文件释义

mobivision quantify会在分析完成后,输出bam比对文件。该bam文件记录了文库的详细比对信息,用户可以根据需求对分析结果进行溯源纠错,或进行下游分析,例如velocity等。

Tags

GX 表示唯一比对的read所比对到的基因ID;
GN 表示唯一比对的Read所比对到的基因名;
CB 表示纠错后的细胞标签;
UB 表示纠错后的UMI分子;
NH 表示同一read比对到基因组不同位置的数目,=1表示该read可以比对到基因组唯一区域,>1表示该read比对到基因组不同点的数目。 NH是SAM文件的标准tag。

MAPQ

比对质量MAPQ是bam文件中的第五列信息,对于可以比对到基因组唯一区域的read而言,MAPQ=255,即MAPQ=255代表read可以比对至基因组唯一区域。当Read比对到基因组的区域>1时,MAPQ = -10*log10(1-1/Nmap)。

matrix释义

mobivision quantify最后输出的matrix文件有两组,分别为raw_cell_gene_matrixfiltered_cell_gene_matrix 。两组文件均包含features.tsv.gz、barcodes.tsv.gz、matrix.mtx.gz三个子文件,具体文件内容如下:

barcodes.tsv.gz

$ cat barcodes.tsv.gz
AACAACACGAAAGTGGCTTA
AACAACACGAAGATTGTAAC
AACAACACGAATTACCAGAA
AACAACACGACGCTGAATGA
AACAACACGACGGACCAACA
AACAACACGACTACGTGAGG
AACAACACGAGGCCACACGC
AACAACACGAGGTTAGTACT
AACAAGTGATCAGCGATGTC
AACAAGTGATCGGTGTGAGT

barcodes.tsv.gz文件中的每一行均代表一个细胞标签序列。

features.tsv.gz

$ cat features.tsv.gz
ENSMUSG00000102693.24933401J01Rik Gene Expression
ENSMUSG00000064842.3Gm26206 Gene Expression
ENSMUSG00000051951.6Xkr4Gene Expression
ENSMUSG00000102851.2Gm18956 Gene Expression
ENSMUSG00000103377.2Gm37180 Gene Expression
ENSMUSG00000104017.2Gm37363 Gene Expression
ENSMUSG00000103025.2Gm37686 Gene Expression
ENSMUSG00000089699.2Gm1992Gene Expression
ENSMUSG00000103201.2Gm37329 Gene Expression
ENSMUSG00000103147.2Gm7341Gene Expression

features.tsv.gz文件从左至右的第一列表示基因ID,第二列为基因名,第三列是固定字符串“Gene Expression”。

matrix.mtx.gz

$ cat matrix.mtx.gz
%%MatrixMarket matrix coordinate integer general
%
55416 6167 20865276
54 1 4
68 1 2
114 1 2
122 1 3
123 1 2
125 1 1
137 1 8

matrix.mtx.gz文件为稀疏矩阵文件。该文件从第四行开始,从左至右,依次为基因ID序号、细胞标签序号、对应细胞对应基因所捕获到的转录本数目。第三行从左至右依次为该文库的基因数目、细胞总数、该文库所捕获到的转录本总数。该文库的基因数目应与features.tsv.gz文件中的基因数目一致,该文库的细胞数目应与barcodes.tsv.gz文件中的细胞数目一致。

质控报告释义

mobivision quantify分析完成后,会生成一html质控报告,分为单双物种两种形式,两种形式可分为overview、 Sample、 Cells、 Sequencing & Mapping、 Data Distribution、 UMAP Projection六部分,具体报告内容如下:

单物种报告

Overview


Sample栏包含信息如下:

  • 样本名称
  • 参考基因组名称
  • 建库试剂盒名称
  • 分析软件名称

Cells


在单物种报告中,Cells栏左图为Barcode Rank Plot,右侧为细胞相关指标,内容与overview栏目一致。该报告通过统计每个细胞标签对应的UMI数目,并将细胞标签按照UMI数目由高到低排序,获得细胞标签序号。例如UMI数目最多的细胞标签,序号为1,以此类推。以细胞标签序号作为x轴横坐标,用对应细胞标签的UMI数作为y轴纵坐标,作图,得到Barcode Rank Plot。用户也可通过点击对应栏目的右上角问号,获得更为详细的help信息(其他栏目也相同),如下:

Sequencing & Mapping

Sequencing & Saturation栏左侧为Sequencing Saturation Plot,右侧为文库测序信息及比对信息。用户可通过Sequencing Saturation Plot判断该文库是否还有加测的必要。若当测序饱和曲线达到平台期或接近灰色短虚线,则暗示难以通过文库加测来捕获更多的基因或UMI分子。

Data Distribution


Data Distribution以小提琴图的形式展示了三块数据的分布情况,分别为细胞线粒体含量、细胞UMI数、细胞基因数。以细胞线粒体含量分布情况为例,我们观察到小提琴图中短虚线的位置位于3%左右,即表示该文库细胞线粒体的含量中值在3%。同样的,根据小提琴图的分布,我们也可以判断该文库中,绝大多数的细胞线粒体含量不超过5%。

UMAP Projection


UMAP Projection含有两张可视化图片,每个点代表一个细胞。左图为通过UMAP降维后,利用细胞对应的UMI数进行染色,由此可判断每个细胞RNA含量的分布;右图为通过UMAP降维后,用Leiden算法进行聚类分析,并用聚类的结果进行染色。

双物种报告

Overview

双物种报告与单物种报告在内容上存在略微差异。双物种报告首行的4个指标如上图,同样可根据这4个指标判断文库的复杂程度和测序程度,从而判断文库质量是否符合用户预期。

Sample

同单物种报告。

Cells


双物种报告中,Cells栏在原来单物种的基础上,分别计算了来自不同物种的细胞数、基因中位数和UMI中位数。其中,Estimated Number of Cells = Estimated Number of Cells (GRCh38) + Estimated Number of Cells (GRCm39) + Number of Barcodes with >1 Cell。 Median Genes per Cell (GRCh38)统计了所有GRCh38来源的细胞, Median Genes per Cell (GRCm39)统计了算有来源于GRCm39的细胞。Median UMI Counts统计方式同Median Genes统计方式。

Sequencing & Mapping


Sequencing & Mapping栏在原来单物种的基础上,统计了比对至不同基因组的情况。如上,我们可以发现有95.88%的reads比对到了基因组上,其中,53.38%的reads比对到GRCh38基因组,42.5%比对到了GRCm39基因组(95.88% = 53.38% + 42.5%)。其他比对结果同理,在原来统计结果的基础上,分别统计了来自不同基因组的比例。

Data Distribution


Data Distribution栏分别统计了来自不同物种(不包含multiplet)的细胞线粒体含量、细胞UMI含量及细胞基因含量。 Cell UMI Counts图反映了不同细胞中不同物种来源的UMI的分布。只有细胞标签中有超过90%的UMI来源于同一物种时,该报告才会认为该barcode是来源于该物种的细胞。若细胞标签中有20%的UMI比对到了物种A,80%的UMI比对到了物种B,则判定该细胞既不属于物种A,也不属于物种B,需归为Multiplet,即上图中的灰点。一般而言,我们认为Multiplet占比越低,该文库存在双胞或多胞的情况越少。

UMAP Projection

同单物种报告。