NGS現場の会第2回_アメリエフ株式会社_RNAseq解析
- 1. RNA-Seq解析パイプラインの検討
2012年5月24日
アメリエフ株式会社
Copyright © Amelieff Co. Ltd. All Rights Reserved
- 2. ア ノ テ ー シ ョ ン デ ー タ
• Illumina iGenomes(http://tophat.cbcb.umd.edu/igenomes.html)
– iGenomesはモデル生物のリファレンスゲノム配列や既知遺伝子情報などを
まとめたデータセットです。
– gene_idやtss_idが正確に記述されているので、以下の解析ではこのデータを
使うことをお奨めします。
http://hgdownload.cse.ucsc.edu/downloads.htmlからダウンロードできる既知遺伝子情報(例)
~(略)~ gene_id "NR_024540"; transcript_id "NR_024540";
cufflinksではgene_idを遺伝子名, transcript_idをmRNA名, tss_idを転写開始
iGenomesの既知遺伝子情報(例) 位置情報として集計するので、これらの値がちゃんと入っていたほうがよい
~(略)~ gene_id "WASH7P"; gene_name "WASH7P"; transcript_id "NR_024540"; tss_id "TSS7245";
生物アイコン © ライフサイエンス統合データベースセンター licensed under CC表示2.1 日本
• 2012年5月時点の対応生物種は、ヒト 、マウス 、ラット 、牛 、犬 、
鶏 、ショウジョウバエ 、シロイヌナズナ 、線虫 、出芽酵母
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
2
- 3. 生の
リードデータ
リードQC
ワ ー ク フ ロ ー
きれいな
リードデータ
マッピングチェック・カバレージチェック マッピング・
マッピングチェッ
転写構造予測
ク結果 ジャンクション情
マッピング結果
報
平均カバレージ
チェック結果
発現レベル予測
SNP/InDel検出
SNP/InDel 発現レベル
転写物情報
検出結果 情報
コンセンサス
転写構造・発現レベル比較 転写物予測
コンセンサス
比較結果
転写物 融合遺伝子
予測
視覚化 既知転写物と比較
新規転写物 融合遺伝
グラフ画像
候補 子候補
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
3
- 4. リ ー ド Q C
• 内容
– Prinseq(http://prinseq.sourceforge.net/)を用いてPolyA/T tailを除去します。
– 弊社独自ツールを用いてリードデータのクオリティをチェックし、クオリティの
低い配列を除去します。
• 入力
– 生のリードデータ(fastq)
• 出力
– クオリティの低い配列を除去したリードデータ(fastq)
– 除去されたリードデータ
• 詳細はポスター番号 T-38 をご覧ください。
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
4
- 5. 融 合 遺 伝 子 予 測
• 内容
– deFuse(http://sourceforge.net/apps/mediawiki/defuse/index.php)を用いて、
融合遺伝子を検出します。
• 入力
– リードデータ(fastq)
• 出力
– 融合遺伝子検出結果(タブ区切りテキスト)
• 実行例
– $ perl defuse.pl -c config.txt -d data_dir -o output_dir -p 8
– 【ご参考】弊社ブログ記事:http://blog.amelieff.jp/?eid=175531
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
5
- 6. マ ッ ピ ン グ ~ 転 写 構 造 予 測
• 内容
– リードをリファレンスゲノムにマッピングします。
– TopHat(http://tophat.cbcb.umd.edu/index.html)では、スプライシングを考慮
したマッピングおよびジャンクション構造予測が可能です。
• 入力
– リードデータ(fastq)
• 出力
– マッピング結果(bam)、ジャンクション情報(bed)、挿入情報(bed)、欠失情報
(bed)
• 実行例
– $ tophat –r 250 -o output_dir -G refgene.gtf -g 1 hg19 fastq1 fastq2
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
6
- 7. 発 現 レ ベ ル 予 測
• 内容
– Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、遺伝子やmRNAごとの発
現レベル(FPKM)を予測します。
• FPKM=Fragments Per Kilobase of exon per Million mapped fragments。発
現量をエキソン長と全マッピング数で補正したもの。遺伝子の長さや、ラ
ンあたりのシーケンシング量によるバイアスを補正する。
• 入力
– マッピング結果(bam)
• 出力
– 転写物情報(gtf)、発現レベル情報(fpkm_tracking)
• 実行例
– $ cufflinks -o output_dir -M mask.gtf -g refgene.gtf accepted_hits.sorted.bam
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
7
- 8. コ ン セ ン サ ス 転 写 物 予 測
• 内容
– Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、複数サンプル由来の転
写物情報をマージしてコンセンサスな転写物を予測します。
• 入力
– 転写物情報ファイル(gtf)を羅列したテキストファイル
• 出力
– コンセンサス転写物(gtf)
• 実行例
– $ cuffmerge -s hg19.fa gtf_list.txt
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
8
- 9. 既 知 転 写 物 と 比 較
• 内容
– Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、コンセンサスな転写物と
既知転写物を比較し、新規転写物候補を検出します。
• 入力
– コンセンサス転写物(gtf)
• 出力
– 新規転写物候補(gtf)
• 実行例
– $ cuffcompare -s hg19.fa -r refGene.gtf merged.gtf
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
9
- 10. 転 写 構 造 ・ 発 現 レ ベ ル 比 較
• 内容
– Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、サンプル間の転写構造
や発現レベルを比較します。
• 入力
– 複数サンプルのマッピング結果
• 出力
– 各転写物の正規化された発現レベル情報(fpkm_tracking)、サンプル間の転
写構造・発現レベル比較結果(diff)
• 実行例
– $ cuffdiff transcripts.gtf sample1_hits.bam sample2_hits.bam
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
10
- 11. 結 果 の 視 覚 化
• 内容
– Rのパッケージ:cummeRbund(http://compbio.mit.edu/cummeRbund/)を用
いて、発現比較結果を視覚化します。
• 入力
– cuffdiffの出力結果
• 出力
– グラフ
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
11
- 12. 解 析 パ イ プ ラ イ ン
• Galaxy(https://main.g2.bx.psu.edu/)により、これらの処理をWebブラウザからGUI
で実行できます。
結果
実行記録
2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved
12