Q: 如何计算测序饱和度sequencing saturation?

测序饱和度反映了全部测序片段整体的复杂性和测序深度,可通过计算含有有效条形码和UMI、且能对比至基因组唯一区域的测序片段的冗余度来获得。Sequencing Saturation = 1 - non-duplicated_unique_mapped_reads / total_unique_mapped_reads。对于通过mobivision quantify获得的bam文件而言, MAPQ=255代表能比对至基因组唯一比区域的测序片段。所以,total_unique_mapped_reads可通过计算MAPQ=255的测序片段中,UMI和Barcode通过纠正的测序片段数获得; non-duplicated_unique_mapped_reads可通过计算MAPQ=255的测序片段中,UMI和Barcode不重复的测序片段数获得; 代码如下:

samtools view -q 255 Aligned.bam | gawk '{if (NF==16) {total_reads+=1; !umi[$19,$20]++}} END {printf("%%s,%%s\\n", total_reads, length(umi))}'