MUTATION CALL

生成した bam ファイルをもとに SNP ( 一塩基多型 ) や indel ( insertion / deletion ) を検出します。

出力ファイル一覧
ファイル名 説明
{サンプル名}.aa_change.tsv mutation callの結果
{サンプル名}.anno.vcf snpEffでアノテーション付けをしたvcfファイル
{サンプル名}.snpEff_genes.txt snpEffのGene counts summary
{サンプル名}.snpEff_summary.html snpEffのHTML summary


aa_change.tsv

GenomonFisher の結果を vcf フォーマットに変換した後、
snpEff を実行します。anno.vcf のそれぞれの変異において複数のアノテーションから
Effect sort order が一番最初のものを出力します。
カラム名 説明
pos コロナウイルスゲノムのどの位置に該当するかを示します。
ref posにおけるリファレンスデータでの塩基
alt posにおけるサンプルデータでの塩基
DP depth ( 総リード数 )
AD 変異アレルのリード数
VF ミスマッチ率 ( = AD / DP )
type 変異の種類 ( snpEff の ANN field の Annotation )
protein タンパク質の名前 ( snpEff の ANN field の Gene Name )
aa_change1 aa_change3 をアミノ酸1文字表記に変換したもの
aa_change3
アミノ酸3文字表記で表したタンパク質の変異
( snpEff の ANN field の HGVS.p の先頭の ‘p.’ 文字列を除いたもの )

Note

snpEff のデータベース

snpEff のデータベースは NC_045512.2 を使っています。
パイプライン設定ファイルによる変更はできません。
vcf ファイルはテキストファイルのため そのままで見ることができます。
vcf ファイルを less コマンドで見ると SNP が検出されていることがわかります。( テキストファイルを見る方法 )
vcf ファイルのフォーマットなどは https://samtools.github.io/hts-specs/VCFv4.1.pdf を見てください。

Dependency

vcf フォーマットに変換するスクリプト( fisher_format )と
aa_change.tsv を作成するスクリプト( covid_strain )では
以下のライブラリを使っています。
ライブラリ名 バージョン 使い方
biopython biopython=1.78=py39h3811e60_2 conda
pyvcf pyvcf=0.6.8=py39hde42818_1002 conda