MUTATION CALL¶
生成したbamファイルをもとにSNP ( 一塩基多型 ) や indel ( insertion / deletion ) を検出します。
ファイル名 |
説明 |
---|---|
{サンプル名}.aa_change.tsv |
mutation callの結果 |
{サンプル名}.anno.vcf |
snpEffでアノテーション付けをしたvcfファイル |
{サンプル名}.snpEff_genes.txt |
snpEffのGene counts summary |
{サンプル名}.snpEff_summary.html |
snpEffのHTML summary |
aa_change.tsv¶
GenomonFisherの結果をvcfフォーマットに変換した後、
snpEffを実行します。anno.vcfのそれぞれの変異において複数のアノテーションから
Effect sort orderが一番最初のものを出力します。
カラム名 |
説明 |
---|---|
pos |
コロナウイルスゲノムのどの位置に該当するかを示します。 |
ref |
posにおけるリファレンスデータでの塩基 |
alt |
posにおけるサンプルデータでの塩基 |
DP |
depth ( 総リード数 ) |
AD |
変異アレルのリード数 |
VF |
ミスマッチ率 ( = AD / DP ) |
type |
変異の種類 ( snpEff の ANN field の Annotation ) |
protein |
タンパク質の名前 ( snpEff の ANN field の Gene Name ) |
aa_change1 |
aa_change3 をアミノ酸1文字表記に変換したもの |
aa_change3 |
アミノ酸3文字表記で表したタンパク質の変異
( snpEff の ANN field の HGVS.p の先頭の ‘p.’ 文字列を除いたもの )
|
Note
snpEff のデータベース
snpEff のデータベースは NC_045512.2 を使っています。
パイプライン設定ファイルによる変更はできません。
vcfファイルはテキストファイルのため そのままで見ることができます。
vcfファイルをlessコマンドで見るとSNPが検出されていることがわかります。( テキストファイルを見る方法 )
vcfファイルのフォーマットなどは https://samtools.github.io/hts-specs/VCFv4.1.pdf を見てください。
GenomonFisherについては
https://supcom.hgc.jp/internal/materials/lect-pdf/20171030/Genomon2_Tutorial_1.pdf ( hgcのアカウントが必要です。)
を参考にしてください。
Reference¶
vcfフォーマットに変換するスクリプト( fisher_format )と
aa_change.tsvを作成するスクリプト( covid_strain )では
以下のライブラリを使っています。
ライブラリ名 |
バージョン |
使い方 |
---|---|---|
biopython |
biopython=1.78=py39h3811e60_2 |
conda |
pyvcf |
pyvcf=0.6.8=py39hde42818_1002 |
conda |