ALIGN

マッピングではリファレンスゲノムのデータ( NC_045512 )をもとに
シーケンサーから得られたリードデータ( fastqファイル )が
ウイルスゲノムのどの位置に該当するかを計算します。

Note

リファレンスゲノム

このパイプラインで使っているリファレンスゲノム
( /share/pub/hgc_ppl/CovidPipeLine/2.1.0/database/NC_045512/NC_045512.fasta ) は NC_045512 の NC_045512.2 バージョン を使っています。

このパイプラインでは bwa でマッピングします。
マッピングした sam ファイルは biobambam で位置順に並び替えられた後、
重複リードがマークされます。
出力ファイル一覧
ファイル名 説明
{サンプル名}.markdup.bam markduplicationしたbamファイル
{サンプル名}.markdup.bam.bai markdup.bamのインデックスファイル
{サンプル名}.markdup.bam.md5 markdup.bamのチェックサムファイル
{サンプル名}.markdup.metrics markdup.bamのmetricsファイル
bam ファイルは圧縮ファイルのため
そのままでは見ることができないので、
samtools を使う必要があります。
samtools と less を使うことで見ることができます。( テキストファイルを見る方法 )
[username@gc016 ~]$module use /usr/local/package/modulefiles
[username@gc016 ~]$module load samtools
[username@gc016 ~]$samtools view test.bam | less
sam ファイルや bam ファイルについては https://samtools.github.io/hts-specs/SAMv1.pdf
を参考にしてください。
bwa については http://bio-bwa.sourceforge.net
biobambam については https://github.com/gt1/biobambam
を参考にしてください。