MUTATION CALL

生成した bam ファイルをもとに SNP ( 一塩基多型 ) や indel ( insertion / deletion ) を検出します。

出力ファイル一覧

ファイル名

説明

{サンプル名}.aa_change.tsv

mutation callの結果

{サンプル名}.anno.vcf

snpEffでアノテーション付けをしたvcfファイル

{サンプル名}.snpEff_genes.txt

snpEffのGene counts summary

{サンプル名}.snpEff_summary.html

snpEffのHTML summary



aa_change.tsv

GenomonFisher の結果を vcf フォーマットに変換した後、
snpEff を実行します。anno.vcf のそれぞれの変異において複数のアノテーションから
Effect sort order が一番最初のものを出力します。

カラム名

説明

pos

コロナウイルスゲノムのどの位置に該当するかを示します。

ref

posにおけるリファレンスデータでの塩基

alt

posにおけるサンプルデータでの塩基

DP

depth ( 総リード数 )

AD

変異アレルのリード数

VF

ミスマッチ率 ( = AD / DP )

type

変異の種類 ( snpEff の ANN field の Annotation )

protein

タンパク質の名前 ( snpEff の ANN field の Gene Name )

aa_change1

aa_change3 をアミノ酸1文字表記に変換したもの

aa_change3

アミノ酸3文字表記で表したタンパク質の変異
( snpEff の ANN field の HGVS.p の先頭の ‘p.’ 文字列を除いたもの )

Note

snpEff のデータベース

snpEff のデータベースは NC_045512.2 を使っています。
パイプライン設定ファイルによる変更はできません。
vcf ファイルはテキストファイルのため そのままで見ることができます。
vcf ファイルを less コマンドで見ると SNP が検出されていることがわかります。( テキストファイルを見る方法 )
vcf ファイルのフォーマットなどは https://samtools.github.io/hts-specs/VCFv4.1.pdf を見てください。

Dependency

vcf フォーマットに変換するスクリプト( fisher_format )と
aa_change.tsv を作成するスクリプト( covid_strain )では
以下のライブラリを使っています。

ライブラリ名

バージョン

使い方

biopython

biopython=1.78=py39h3811e60_2

conda

pyvcf

pyvcf=0.6.8=py39hde42818_1002

conda