MUTATION CALL =================== | 生成したbamファイルをもとにSNP ( 一塩基多型 ) や indel ( insertion / deletion ) を検出します。 | .. csv-table:: 出力ファイル一覧 :header: ファイル名, 説明 :widths: 7, 7 {サンプル名}.aa_change.tsv, mutation callの結果 {サンプル名}.anno.vcf, snpEffでアノテーション付けをしたvcfファイル {サンプル名}.snpEff_genes.txt, snpEffのGene counts summary {サンプル名}.snpEff_summary.html, snpEffのHTML summary | | aa_change.tsv ^^^^^^^^^^^^^^ | GenomonFisherの結果をvcfフォーマットに変換した後、 | snpEffを実行します。anno.vcfのそれぞれの変異において複数のアノテーションから | Effect sort orderが一番最初のものを出力します。 .. csv-table:: :header: カラム名, 説明 :widths: 7, 7 pos, コロナウイルスゲノムのどの位置に該当するかを示します。 ref, posにおけるリファレンスデータでの塩基 alt, posにおけるサンプルデータでの塩基 DP, depth ( 総リード数 ) AD, 変異アレルのリード数 VF, ミスマッチ率 ( = AD / DP ) type, 変異の種類 ( snpEff の ANN field の Annotation ) protein, タンパク質の名前 ( snpEff の ANN field の Gene Name ) aa_change1, aa_change3 をアミノ酸1文字表記に変換したもの aa_change3, "| アミノ酸3文字表記で表したタンパク質の変異 | ( snpEff の ANN field の HGVS.p の先頭の 'p.' 文字列を除いたもの )" .. note:: **snpEff のデータベース** | snpEff のデータベースは NC_045512.2 を使っています。 | パイプライン設定ファイルによる変更はできません。 | vcfファイルはテキストファイルのため そのままで見ることができます。 | vcfファイルをlessコマンドで見るとSNPが検出されていることがわかります。( :ref:`less` ) | vcfファイルのフォーマットなどは https://samtools.github.io/hts-specs/VCFv4.1.pdf を見てください。 | GenomonFisherについては | https://genomon.readthedocs.io/ja/latest/dna_results.html | https://github.com/Genomon-Project/GenomonFisher | https://supcom.hgc.jp/internal/materials/lect-pdf/20171030/Genomon2_Tutorial_1.pdf ( hgcのアカウントが必要です。) | を参考にしてください。 Reference ^^^^^^^^^^ | vcfフォーマットに変換するスクリプト( fisher_format )と | aa_change.tsvを作成するスクリプト( covid_strain )では | 以下のライブラリを使っています。 .. csv-table:: :header: ライブラリ名, バージョン, 使い方 :widths: 2, 2, 2 biopython, biopython=1.78=py39h3811e60_2, conda pyvcf, pyvcf=0.6.8=py39hde42818_1002, conda