ALIGN

マッピングではリファレンスゲノムのデータ( NC_045512 )をもとに
シーケンサーから得られたリードデータ( fastqファイル )が
ウイルスゲノムのどの位置に該当するかを計算します。

Note

リファレンスゲノム

このパイプラインで使っているリファレンスゲノム
( /share/pub/hgc_ppl/CovidPipeLine/1.0.0/database/NC_045512/NC_045512.fasta ) は NC_045512 の NC_045512.2 バージョン を使っています。

このパイプラインではbwaでマッピングします。
マッピングしたsamファイルはbiobambamで位置順に並び替えられた後、
重複リードがマークされます。
出力ファイル一覧

ファイル名

説明

{サンプル名}.markdup.bam

markduplicationしたbamファイル

{サンプル名}.markdup.bam.bai

markdup.bamのインデックスファイル

{サンプル名}.markdup.bam.md5

markdup.bamのチェックサムファイル

{サンプル名}.markdup.metrics

markdup.bamのmetricsファイル

bamファイルは圧縮ファイルのため
そのままでは見ることができないので、
samtoolsを使う必要があります。
samtoolsとlessを使うことで見ることができます。( テキストファイルを見る方法 )
[username@gc016 ~]$module use /usr/local/package/modulefiles
[username@gc016 ~]$module load samtools
[username@gc016 ~]$samtools view test.bam | less
samファイルやbamファイルについては https://samtools.github.io/hts-specs/SAMv1.pdf
を参考にしてください。
bwa については http://bio-bwa.sourceforge.net
biobambamについては https://github.com/gt1/biobambam
を参考にしてください。