MUTATION CALL

生成したbamファイルをもとにSNP ( 一塩基多型 ) や indel ( insertion / deletion ) を検出します。

出力ファイル一覧

ファイル名

説明

{サンプル名}.aa_change.tsv

mutation callの結果

{サンプル名}.anno.vcf

snpEffでアノテーション付けをしたvcfファイル

{サンプル名}.snpEff_genes.txt

snpEffのGene counts summary

{サンプル名}.snpEff_summary.html

snpEffのHTML summary



aa_change.tsv

GenomonFisherの結果をvcfフォーマットに変換した後、
snpEffを実行します。anno.vcfのそれぞれの変異において複数のアノテーションから
Effect sort orderが一番最初のものを出力します。

カラム名

説明

pos

コロナウイルスゲノムのどの位置に該当するかを示します。

ref

posにおけるリファレンスデータでの塩基

alt

posにおけるサンプルデータでの塩基

DP

depth ( 総リード数 )

AD

変異アレルのリード数

VF

ミスマッチ率 ( = AD / DP )

type

変異の種類 ( snpEff の ANN field の Annotation )

protein

タンパク質の名前 ( snpEff の ANN field の Gene Name )

aa_change1

aa_change3 をアミノ酸1文字表記に変換したもの

aa_change3

アミノ酸3文字表記で表したタンパク質の変異
( snpEff の ANN field の HGVS.p の先頭の ‘p.’ 文字列を除いたもの )

Note

snpEff のデータベース

snpEff のデータベースは NC_045512.2 を使っています。
パイプライン設定ファイルによる変更はできません。
vcfファイルはテキストファイルのため そのままで見ることができます。
vcfファイルをlessコマンドで見るとSNPが検出されていることがわかります。( テキストファイルを見る方法 )
vcfファイルのフォーマットなどは https://samtools.github.io/hts-specs/VCFv4.1.pdf を見てください。

Reference

vcfフォーマットに変換するスクリプト( fisher_format )と
aa_change.tsvを作成するスクリプト( covid_strain )では
以下のライブラリを使っています。

ライブラリ名

バージョン

使い方

biopython

biopython=1.78=py39h3811e60_2

conda

pyvcf

pyvcf=0.6.8=py39hde42818_1002

conda