SlideShare a Scribd company logo
RNA-Seq解析パイプラインの検討



          2012年5月24日
         アメリエフ株式会社




      Copyright © Amelieff Co. Ltd. All Rights Reserved
ア ノ テ ー シ ョ ン デ ー タ


  •     Illumina iGenomes(http://tophat.cbcb.umd.edu/igenomes.html)
          – iGenomesはモデル生物のリファレンスゲノム配列や既知遺伝子情��などを
             まとめたデータセットです。
          – gene_idやtss_idが正確に記述されているので、以下の解析ではこのデータを
             使うことをお奨めします。
http://hgdownload.cse.ucsc.edu/downloads.htmlからダウンロードできる既知遺伝子情報(例)
~(略)~ gene_id "NR_024540"; transcript_id "NR_024540";

                                            cufflinksではgene_idを遺伝子名, transcript_idをmRNA名, tss_idを転写開始
iGenomesの既知遺伝子情報(例)                         位置情報として集計するので、これらの値がちゃんと入っていたほうがよい

~(略)~ gene_id "WASH7P"; gene_name "WASH7P"; transcript_id "NR_024540"; tss_id "TSS7245";
                                                生物アイコン © ライフサイエンス統合データベースセンター licensed under CC表示2.1 日本

  •     2012年5月時点の対応生物種は、ヒト 、マウス 、ラット 、牛 、犬                                                               、
        鶏 、ショウジョウバエ 、シロイヌナズナ 、線虫 、出芽酵母
 2012/5/24                      Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                                              2
生の
                                                                                               リードデータ

                                                                                                   リードQC
  ワ ー ク フ ロ ー
                                                                                                きれいな
                                                                                               リードデータ
マッピングチェック・カバレージチェック                                                    マッピング・
         マッピングチェッ
                                                                      転写構造予測
           ク結果                                                                        ジャンクション情
                                                       マッピング結果
                                                                                         報
         平均カバレージ
          チェック結果

                                                                    発現レベル予測
             SNP/InDel検出
             SNP/InDel                                                                 発現レベル
                                                         転写物情報
             検出結果                                                                       情報

                                                                     コンセンサス
             転写構造・発現レベル比較                                            転写物予測
                                                        コンセンサス
                         比較結果
                                                         転写物                                       融合遺伝子
                                                                                                   予測
                            視覚化                                     既知転写物と比較
                                                         新規転写物                                   融合遺伝
                         グラフ画像
                                                           候補                                    子候補

 2012/5/24                        Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                                           3
リ ー ド Q C


 •     内容
        – Prinseq(http://prinseq.sourceforge.net/)を用いてPolyA/T tailを除去します。
        – 弊社独自ツールを用いてリードデータのクオリティをチェックし、クオリティの
          低い配列を除去します。
 •     入力
        – 生のリードデータ(fastq)
 •     出力
        – クオリティの低い配列を除去したリードデータ(fastq)
        – 除去されたリードデータ
 •     詳細はポスター番号 T-38 をご覧ください。




2012/5/24                    Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                 4
融 合 遺 伝 子 予 測


 •     内容
        – deFuse(http://sourceforge.net/apps/mediawiki/defuse/index.php)を用いて、
          融合遺伝子を検出します。
 •     入力
        – リードデータ(fastq)
 •     出力
        – 融合遺伝子検出結果(タブ区切りテキスト)
 •     実行例
        – $ perl defuse.pl -c config.txt -d data_dir -o output_dir -p 8
        – 【ご参考】弊社ブログ記事:http://blog.amelieff.jp/?eid=175531




2012/5/24                     Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                  5
マ ッ ピ ン グ ~ 転 写 構 造 予 測


 •     内容
        – リードをリファレンスゲノムにマッピングします。
        – TopHat(http://tophat.cbcb.umd.edu/index.html)では、スプライシングを考慮
          したマッピングおよびジャンクション構造予測が可能です。
 •     入力
        – リードデータ(fastq)
 •     出力
        – マッピング結果(bam)、ジャンクション情報(bed)、挿入情報(bed)、欠失情報
          (bed)
 •     実行例
        – $ tophat –r 250 -o output_dir -G refgene.gtf -g 1 hg19 fastq1 fastq2



2012/5/24                     Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                  6
発 現 レ ベ ル 予 測


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、遺伝子やmRNAごとの発
          現レベル(FPKM)を予測します。
            • FPKM=Fragments Per Kilobase of exon per Million mapped fragments。発
              現量をエキソン長と全マッピング数で補正したもの。遺伝子の長さや、ラ
              ンあたりのシーケンシング量によるバイアスを補正する。
 •     入力
        – マッピング結果(bam)
 •     出力
        – 転写物情報(gtf)、発現レベル情報(fpkm_tracking)
 •     実行例
        – $ cufflinks -o output_dir -M mask.gtf -g refgene.gtf accepted_hits.sorted.bam


2012/5/24                        Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                          7
コ ン セ ン サ ス 転 写 物 予 測


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、複数サンプル由来の転
          写物情報をマージしてコンセンサスな転写物を予測します。
 •     入力
        – 転写物情報ファイル(gtf)を羅列したテキストファイル
 •     出力
        – コンセンサス転写物(gtf)
 •     実行例
        – $ cuffmerge -s hg19.fa gtf_list.txt




2012/5/24                 Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                              8
既 知 転 写 物 と 比 較


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、コンセンサスな転写物と
          既知転写物を比較し、新規転写物候補を検出します。
 •     入力
        – コンセンサス転写物(gtf)
 •     出力
        – 新規転写物候補(gtf)
 •     実行例
        – $ cuffcompare -s hg19.fa -r refGene.gtf merged.gtf




2012/5/24                 Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                              9
転 写 構 造 ・ 発 現 レ ベ ル 比 較


 •     内容
        – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、サンプル間の転写構造
          や発現レベルを比較します。
 •     入力
        – 複数サンプルのマッピング結果
 •     出力
        – 各転写物の正規化された発現レベル情報(fpkm_tracking)、サンプル間の転
          写構造・発現レベル比較結果(diff)
 •     実行例
        – $ cuffdiff transcripts.gtf sample1_hits.bam sample2_hits.bam




2012/5/24                  Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                               10
結 果 の 視 覚 化


 •     内容
        – Rのパッケージ:cummeRbund(http://compbio.mit.edu/cummeRbund/)を用
          いて、発現比較結果を視覚化します。
 •     入力
        – cuffdiffの出力結果
 •     出力
        – グラフ




2012/5/24                 Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                              11
解 析 パ イ プ ラ イ ン


 •     Galaxy(https://main.g2.bx.psu.edu/)により、これらの処理をWebブラウザからGUI
       で実行できます。




     結果

                                                                             実行記録




2012/5/24                Copyright © Amelieff Co. Ltd. All Rights Reserved
                                                                                12

More Related Content

NGS現場の会第2回_アメリエフ株式会社_RNAseq解析

  • 1. RNA-Seq解析パイプラインの検討 2012年5月24日 アメリエフ株式会社 Copyright © Amelieff Co. Ltd. All Rights Reserved
  • 2. ア ノ テ ー シ ョ ン デ ー タ • Illumina iGenomes(http://tophat.cbcb.umd.edu/igenomes.html) – iGenomesはモデル生物のリファレンスゲノム配列や既知遺伝子情報などを まとめたデータセットです。 – gene_idやtss_idが正確に記述されているので、以下の解析ではこのデータを 使うことをお奨めします。 http://hgdownload.cse.ucsc.edu/downloads.htmlからダウンロードできる既知遺伝子情報(例) ~(略)~ gene_id "NR_024540"; transcript_id "NR_024540"; cufflinksではgene_idを遺伝子名, transcript_idをmRNA名, tss_idを転写開始 iGenomesの既知遺伝子情報(例) 位置情報として集計するので、これらの値がちゃんと入っていたほうがよい ~(略)~ gene_id "WASH7P"; gene_name "WASH7P"; transcript_id "NR_024540"; tss_id "TSS7245"; 生物アイコン © ライフサイエンス統合データベースセンター licensed under CC表示2.1 日本 • 2012年5月時点の対応生物種は、ヒト 、マウス 、ラット 、牛 、犬 、 鶏 、ショウジョウバエ 、シロイヌナズナ 、線虫 、出芽酵母 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 2
  • 3. 生の リードデータ リードQC ワ ー ク フ ロ ー きれいな リードデータ マッピングチェック・カバレージチェック マッピング・ マッピングチェッ 転写構造予測 ク結果 ジャンクション情 マッピング結果 報 平均カバレージ チェック結果 発現レベル予測 SNP/InDel検出 SNP/InDel 発現レベル 転写物情報 検出結果 情報 コンセンサス 転写構造・発現レベル比較 転写物予測 コンセンサス 比較結果 転写物 融合遺伝子 予測 視覚化 既知転写物と比較 新規転写物 融合遺伝 グラフ画像 候補 子候補 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 3
  • 4. リ ー ド Q C • 内容 – Prinseq(http://prinseq.sourceforge.net/)を用いてPolyA/T tailを除去します。 – 弊社独自ツールを用いてリードデータのクオリティをチェックし、クオリティの 低い配列を除去します。 • 入力 – 生のリードデータ(fastq) • 出力 – クオリティの低い配列を除去したリードデータ(fastq) – 除去されたリードデータ • 詳細はポスター番号 T-38 をご覧ください。 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 4
  • 5. 融 合 遺 伝 子 予 測 • 内容 – deFuse(http://sourceforge.net/apps/mediawiki/defuse/index.php)を用いて、 融合遺伝子を検出します。 • 入力 – リードデータ(fastq) • 出力 – 融合遺伝子検出結果(タブ区切りテキスト) • 実行例 – $ perl defuse.pl -c config.txt -d data_dir -o output_dir -p 8 – 【ご参考】弊社ブログ記事:http://blog.amelieff.jp/?eid=175531 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 5
  • 6. マ ッ ピ ン グ ~ 転 写 構 造 予 測 • 内容 – リードをリファレンスゲノムにマッピングします。 – TopHat(http://tophat.cbcb.umd.edu/index.html)では、スプライシングを考慮 したマッピングおよびジャンクション構造予測が可能です。 • 入力 – リードデータ(fastq) • 出力 – マッピング結果(bam)、ジャンクション情報(bed)、挿入情報(bed)、欠失情報 (bed) • 実行例 – $ tophat –r 250 -o output_dir -G refgene.gtf -g 1 hg19 fastq1 fastq2 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 6
  • 7. 発 現 レ ベ ル 予 測 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、遺伝子やmRNAごとの発 現レベル(FPKM)を予測します。 • FPKM=Fragments Per Kilobase of exon per Million mapped fragments。発 現量をエキソン長と全マッピング数で補正したもの。遺伝子の長さや、ラ ンあたりのシーケンシング量によるバイアスを補正する。 • 入力 – マッピング結果(bam) • 出力 – 転写物情報(gtf)、発現レベル情報(fpkm_tracking) • 実行例 – $ cufflinks -o output_dir -M mask.gtf -g refgene.gtf accepted_hits.sorted.bam 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 7
  • 8. コ ン セ ン サ ス 転 写 物 予 測 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、複数サンプル由来の転 写物情報をマージしてコンセンサスな転写物を予測します。 • 入力 – 転写物情報ファイル(gtf)を羅列したテキストファイル • 出力 – コンセンサス転写物(gtf) • 実行例 – $ cuffmerge -s hg19.fa gtf_list.txt 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 8
  • 9. 既 知 転 写 物 と 比 較 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、コンセンサスな転写物と 既知転写物を比較し、新規転写物候補を検出します。 • 入力 – コンセンサス転写物(gtf) • 出力 – 新規転写物候補(gtf) • 実行例 – $ cuffcompare -s hg19.fa -r refGene.gtf merged.gtf 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 9
  • 10. 転 写 構 造 ・ 発 現 レ ベ ル 比 較 • 内容 – Cufflinks(http://cufflinks.cbcb.umd.edu/)を用いて、サンプル間の転写構造 や発現レベルを比較します。 • 入力 – 複数サンプルのマッピング結果 • 出力 – 各転写物の正規化された発現レベル情報(fpkm_tracking)、サンプル間の転 写構造・発現レベル比較結果(diff) • 実行例 – $ cuffdiff transcripts.gtf sample1_hits.bam sample2_hits.bam 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 10
  • 11. 結 果 の 視 覚 化 • 内容 – Rのパッケージ:cummeRbund(http://compbio.mit.edu/cummeRbund/)を用 いて、発現比較結果を視覚化します。 • 入力 – cuffdiffの出力結果 • 出力 – グラフ 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 11
  • 12. 解 析 パ イ プ ラ イ ン • Galaxy(https://main.g2.bx.psu.edu/)により、これらの処理をWebブラウザからGUI で実行できます。 結果 実行記録 2012/5/24 Copyright © Amelieff Co. Ltd. All Rights Reserved 12