MUTATION CALL¶
生成した bam ファイルをもとに SNP ( 一塩基多型 ) や indel ( insertion / deletion ) を検出します。
ファイル名 | 説明 |
---|---|
{サンプル名}.aa_change.tsv | mutation callの結果 |
{サンプル名}.anno.vcf | snpEffでアノテーション付けをしたvcfファイル |
{サンプル名}.snpEff_genes.txt | snpEffのGene counts summary |
{サンプル名}.snpEff_summary.html | snpEffのHTML summary |
aa_change.tsv¶
GenomonFisher の結果を vcf フォーマットに変換した後、
snpEff を実行します。anno.vcf のそれぞれの変異において複数のアノテーションから
Effect sort order が一番最初のものを出力します。
カラム名 | 説明 |
---|---|
pos | コロナウイルスゲノムのどの位置に該当するかを示します。 |
ref | posにおけるリファレンスデータでの塩基 |
alt | posにおけるサンプルデータでの塩基 |
DP | depth ( 総リード数 ) |
AD | 変異アレルのリード数 |
VF | ミスマッチ率 ( = AD / DP ) |
type | 変異の種類 ( snpEff の ANN field の Annotation ) |
protein | タンパク質の名前 ( snpEff の ANN field の Gene Name ) |
aa_change1 | aa_change3 をアミノ酸1文字表記に変換したもの |
aa_change3 | アミノ酸3文字表記で表したタンパク質の変異
( snpEff の ANN field の HGVS.p の先頭の ‘p.’ 文字列を除いたもの )
|
Note
snpEff のデータベース
snpEff のデータベースは NC_045512.2 を使っています。
パイプライン設定ファイルによる変更はできません。
vcf ファイルはテキストファイルのため そのままで見ることができます。
vcf ファイルを less コマンドで見ると SNP が検出されていることがわかります。( テキストファイルを見る方法 )
vcf ファイルのフォーマットなどは https://samtools.github.io/hts-specs/VCFv4.1.pdf を見てください。
GenomonFisher については
https://supcom.hgc.jp/internal/materials/lect-pdf/20171030/Genomon2_Tutorial_1.pdf ( hgc のアカウントが必要です。)
を参考にしてください。
Dependency¶
vcf フォーマットに変換するスクリプト( fisher_format )と
aa_change.tsv を作成するスクリプト( covid_strain )では
以下のライブラリを使っています。
ライブラリ名 | バージョン | 使い方 |
---|---|---|
biopython | biopython=1.78=py39h3811e60_2 | conda |
pyvcf | pyvcf=0.6.8=py39hde42818_1002 | conda |