BGI Webinar Aug 28, 2014 "Genome wide methylation analysis and analytics"
- 3. 本日
• 本セミナーは初めて、メチル化解析のデータ解
析を行いたい人のための入門的、かつチュート
リアル的な内容です。
• これをたたき台に、ご自分でより深く勉強して頂く
ことを想定しています。
• 後ほど、SlideShareにこのスライドは公開します。
コマンドなどはあとでそちらで確認してください。
しかし、簡潔な内容ですので、実際の使用時は
文献を参照してください。
• 資料の利用は自己責任でお願いいたします。
- 4. エピゲノムの
実験的背景に関しましては
すでに他社でウェビナー、セミナーが開催されています。たと
えば、
• イルミナ社ウェビナー
エピゲノム解析シリーズDNAメチル化・基礎からの網羅的解
析--- 国立がん研究センター研究所山下聡先生
http://www.illuminakk.co.jp/documents/pdf/2012_illumina_h
m450.pdf
キアゲン/CLCの最近のセミナーでも講演されています。
「Targeted bisulfite sequencingによるDNAメチル化解析」
CLCbio ユーザーミーティング2014(7月24日(木))
- 9. いろいろなゲノムメチル化解析法が
有ります
マイクロアレイベース他にはPCRベースも考えられます
メチル化マイクロアレイ各種
CpG Islandマイクロアレイ各種
次世代シーケンサーベース
全ゲノムバイサルファイトシークエンス(WGBS)
Reduced Representation Bisulfite Sequencing
(メチル化部位特異的制限酵素で濃縮)
Me-DIP Seq (抗メチル化DNA抗体で濃縮)
MethylCap Seq(メチル化DNA結合タンパクで濃縮)
Sure-Select Methyl-Seq
(ハイブリダイダイゼーションによる濃縮)
- 10. いろいろなゲノムメチル化解析法が
有ります
• メチル化DNA検出原理による分類
1.バイサルファイト処理による塩基置換
2.メチル化感受性制限酵素による切断
3.抗メチル化シトシン抗体、またはメチル化DNA
結合タンパク質による濃縮
https://www.takara-bio.
co.jp/goods/bioview/pdfs/58_02-08.pdf
- 11. メチル化マイクロアレイ
• プローブを用いているため解像度が低い。
• 比較的安価でデータが得られやすい。
例
≪アジレント社CpG Islandマイクロアレイ≫
・Human CpG Island Microarray(244Kフォーマット)
・Mouse CpG Island Microarray(105Kフォーマット)
- 12. メチル化マイクロアレイ
例
Illumina Human Methylation 450K
Infinium I およびInfinium II テクノロジーにより、
一塩基レベルの高解像度を達成。
詳細は以下をご参照ください。
http://www.illuminakk.co.jp/documents/pdf/tec
hnote_hm450_data_analysis_optimization-J.pdf
- 13. 全ゲノムバイサルファイト
シークエンス
• Whole genome bisulfite sequence (WGBS)
• バイサルファイト試薬処理により非メチル化シトシンがウ
ラシルに変換するところを配列解析で検出
C→T、G→Aに変わる部位が非メチル化部位、
不変サイトはメチル化部位
• 定量性を持たせるにはかなり高価(非現実的なほど高
コスト)
• 多分、これが本命の方法だが、高価で出来ないため他
の方法で、コストを下げているのが実情
- 15. Reduced Representation Bisulfite
Sequencing
DNAはまず制限酵素によりCpG認識部位で
切断されます。
その後アダプタ付加、ゲルによるサイズ選択、
バイサルファイト変換とPCRを行い、DNAを濃縮します。
この濃縮法では特定のメチル化領域を選択すること
はできず、繰り返し配列と
CpG-richな配列にバイアスがかかります。
アジレントの解説文書より、転記。
http://www.chem-agilent.com/pdf/low_5991-0166JAJP.pdf
- 17. MeDIP-seq 解析
Methylated DNA immunoprecipitation (MeDIP)は
メチル化DNAを全ゲノムに渡って解析する技術です。
5-メチルシトシン(5mC)という抗体でメチル化DNA断片を
沈降させ、ハイスループットシーケンシングを行います。
MeDIPシーケンシングは高メチル化やCpGが高密度に
あるゲノム領域を検出することができます。
つぶやき;
WGBSのように広い領域をカバーする方法は今のところない。
どの方法でやるかは悩ましいのが現状。
RRBSもMeDIP-seq 解析もカバー領域があまり広くないのが難点。
Sure-Select Methylがややまし程度。
Illumina Human Methylation 450Kマイクロアレイのほうが、楽かも。
- 21. メチル化部位コーリングソフトの例
• BISMARK − bowtie でマッピング
• PASH − 低メモリ、高速
• BSMAP − SOAP でマッピング
• Methylcoder
• BS-Seq − 植物用
• Kismeth − 植物用、ウェブソフトいろいろある。
以下のサイトでそのパフォーマンスが検討されていますので、参考にしてく
ださい。
http://www.genboree.org/workshopFiles/Epigenetics_Workshop_March_201
2/Programs%20for%20mapping%20bisulfite%20reads_G%20Ramamoorthy%
20030512.pdf
以下も参照
http://omictools.com/bisulfite-mappers/
- 22. Bismark's approach to bisulfite mapping and methylation calling.
Krueger F , and Andrews S R Bioinformatics 2011;27:1571-
1572
© The Author(s) 2011. Published by Oxford University Press.
- 23. Bismark's approach to bisulfite mapping and methylation calling.
Krueger F , and Andrews S R Bioinformatics 2011;27:1571-
1572
© The Author(s) 2011. Published by Oxford University Press.
- 24. Pash 3.0 Algorythm
Multi-positional hash tables. A. Reads are indexed in a multi-positional hash table.
B. A sliding fixed size genomic window is used
Coarfa et al. BMC Bioinformatics 2010 11:572 doi:10.1186/1471-2105-11-572
- 25. BSMAP algorithm
Xi and Li BMC Bioinformatics
2009 10:232
A) Bisulfite seed table, using the original seed and bisulfite variants as keys and
corresponding coordinates in the reference genome as values. Each read was looked up in
the seed table for potential mapping positions. B) A positional specific mask of the
corresponding reference sequence was generated by setting 01 to C(light blue) and 11 to A,
G, T(black). The original read was masked by a bitwise AND operation with the positional
specific mask. C) The reference sequence and the masked read were compared with a
bitwise XOR operation. Non-zero XOR results were counted as mismatches (red). Bisulfite
alignment is marked in green.
- 26. BiQ Analyzer - a software tool for DNA
methylation analysis
Example of Graphical Tool
- 27. BisMark データ解析ワークフロー
シーケンスリード
Trimmomatic など
トリムしたリード
マッピング
メチル化部位
検出
視覚化
ゲノム配列
Bisulfite Converted
Genome
Bowtie など
Bismark など
IGV, Genome Browser など
- 28. 解析の実際(Bismark)
インストールするソフトウェア(インストール上の注意)
Bismark (v0.12.5) インストールはダウンロードして解凍するだけです。
Bowtie2 (v2.2.3) インストールはダウンロードして解凍するだけです。
SAMTools (v0.1.9) Makefile のcurses をncursesに書き換えてmakeします。
Trimmomatic (v0.32) インストールはダウンロードして解凍するだけです。
1. Filtering poor quality reads, and reads with adapter sequences (Trimmomatic)
2. Generation of bisulfite converted genome (Bismark)
3. Genome Alignment (Bismark ‐ Bowtie)
4. Methylation calls (Bismark)
5. Generation of genome wide tracks for visualization (SAMtools, Genome Browser)
詳細は以下を参照してください。
http://www.epibio.com/docs/default-source/protocols/
epignome-bioinformatics-user-guide.pdf?sfvrsn=2
注意: コマンドやマニュアルは頻繁に変わりますので、最新のもので確認してください。
本日のものは、セミナー時点で動作していますが、いつまで動くかはわかりません。
コマンドの使用は自己の責任で実施してください。
- 29. 解析の実際2 (Bismark)
1. Filtering poor quality reads, and reads with adapter
sequences (Trimmomatic)
アダプターのトリミング
コマンド例
java -jar /root/bin/trimmomatic-0.32.jar SE -phred33 test.fastq test-trim.fastq
ILLUMINACLIP:TruSeq2-SE:2:30:10 LEADING:3 TRAILING:3 MINLEN:36 &
注;上記と同じコマンドが通るとは限りません。マニュアルをよく読んで、
自分の環境に合わせて書き換えてください。
- 30. 解析の実際3 (Bismark)
2. Generation of bisulfite converted genome (Bismark)
bisulfite converted genome の作成
1) 以下のイルミナのiGenome のサイトから自分の実験に
該当する参照配列をダウンロードします。
かなり時間がかかります。
http://support.illumina.com/sequencing/sequencing_software/igenome.ilmn
コマンド例
wget ftp://igenome:G3nom3s4u@ussd-ftp.illumina.com/Homo_sapiens/UCSC/
hg19/Homo_sapiens_UCSC_hg19.tar.gz
tar zxvf Homo_sapiens_UCSC_hg19.tar.gz
/Homo_sapiens/UCSC/hg19/Sequence/Chromosome というフォルダー内に
ゲノム配列があることを確認する。
- 31. 解析の実際4 (Bismark)
2. Generation of bisulfite converted genome (Bismark)
(続き)
2) bisulfite converted genome を置くファイルを作成する。
mkdir –p Genome/Bisulfude/hg19
3) Homo_sapiens/UCSC/hg19/Sequence/Chromosome/ の中のクロモソームを含む
fastaファイルをGenome/Bisulfude/hg19にコピーします。
cp /Homo_sapiens/UCSC/hg19/Sequence/Chromosome/*fa Genome/Bisulfude/hg19
4) bisulfite converted genome の作成
bismark_genome_preparation --verdose Genome/Bisulfude/hg19 --bowtie2
--path_to_bowtie /usr/local/bin
--verdose にはbisulfite converted genome を置くファイルを、
--path_to_bowtieにはbowtie2 が置かれているファイルを指定します。
- 32. 解析の実際5 (Bismark)
2. Genome Alignment (Bismark ‐ Bowtie2) (続き)
1) Bismark (bowtie2) によるアラインメント
Perl のモジュールのGD::Graphを最初にインストールしておかないと、
結果のグラフが出てきません。
あらかじめ、gd とgd-devel をインストールしておき、
perl –MCPAN –e shell
cpan> upgrade
cpan> install YAML
cpan> GD
Cpan> GD::Graph
でperl のモジュールをインストール
zlib, libpng, freetype, jpeg, xpm 関連のライブラリも一緒にインストール
RHELとか、CentOS系はこのあたりのパッケージの
依存性が壊れていて、構築にそれなりに工夫が必要
です。詳細は、個別にお問い合わせください。
コマンド: bismark -q --bowtie2 --path_to_bowtie /root/bin/
Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq
-q fastq の場合、--phred64-quals クオリティスコアphred64 を使用している場合
--path_to_bowtieにはbowtie が置かれているファイルを指定
Genome/Bisulfide/hg19 bisulfite は、converted genome の場所
- 33. 解析の実際6 (Bismark)
2. Genome Alignment (Bismark ‐ Bowtie2) (続き)
1) Bismark (bowtie2) によるアラインメント(続き)
コマンド例: bismark -q --phred64-quals --bowtie2 --path_to_bowtie /root/bin/
Genome/Bisulfide/hg19 --1 test1-2.fq --2 test2-2.fq
うまくいば、
*.png
*.sam
*.txt
の3つのファイルができているはず。
2) duplicate 除去
コマンド例: deduplicate_bismark –s test1-2.fq_bismark_bt2.sam
オプション-s : シングルエンドの場合、-p:ペアエンドの場合
- 34. 解析の実際7 (Bismark)
1) Bismark (bowtie2) によるアラインメント
(続き)
*alignment_overview.png の結果
1箇所にalign
複数箇所にalign
Alignしなかったもの
http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf
- 35. 解析の実際8 (Bismark)
3. メチル化部位の検出
コマンド使い方: bismark_methylation_extrctor [オプション] <ファイル名>.sam
以下でヘルプが見れます。
bismark_methylation_extractor –help | more
コマンド例
bismark_methylation_extractor -s –comprehensive
test1-2.fq_bismark_bt2.duplicated.sam
-s : シングルエンドの場合、-p:ペアエンドの場合
--comprehensive 結果の出力形式の指定。ヘルプを参照。
以下のような接頭文字をもつ出力ファイルが3つできる。
CpG_content_....txt
CHG_content_....txt
CHH_content_....txt
これらのデータから、情報を抽出して、
いろいろな統計情報を作れる。
- 36. 解析の実際9 (Bismark)
4. メチル化部位の視覚化
コマンド使い方:
bismark_methylation_extrctor [オプション] <ファイル名>.sam
以下でヘルプが見れます。
bismark_methylation_extractor –help | more
コマンド例
bismark_methylation_extractor -s --bedGraph –counts
test-2.fq_bismark_bt2.duplicated.sam
-s : シングルエンドの場合、-p:ペアエンドの場合
--bedGraph –counts
できた、*.bedGraph ファイルをUCSC Genome Browser などで視覚化
できます。
- 37. 解析の実際10 (Bismark)
4. メチル化部位の視覚化(続き)
bedGraphの中身はこんな感じです。(このあとは,
RやPerlなどでいろいろ処理できます。)
# head test-2.fastq_bismark_bt2.deduplicated.bedGraph
track type=bedGraph
chr21 1050344 1050345 0
chr21 1050919 1050920 0
chr21 1050920 1050921 50
chr21 1050987 1050988 100
chr21 1050988 1050989 50
chr21 1051049 1051050 100
chr21 1051238 1051239 100
chr21 1051282 1051283 100
chr21 1051395 1051396 100
メチル化率
大体1千万箇所くらい
ありました。
- 39. 解析の実際12 (Bismark)
4. メチル化部位の視覚化(続き)
IGVによる視覚化例
http://nbviewer.ipython.org/urls/dl.dropboxusercontent.com/u/115356/ip/claire/L
arv_BS_Workflow_Example-IGV.ipynb
- 40. 解析の実際13 (Bismark)
4. メチル化部位の視覚化(続き)
M-biasの出力結果。メチル化の偏りが確認できる。
http://www.bioinformatics.babraham.ac.uk/projects/bismark/Bismark_User_Guide.pdf
- 41. 解析の実際14 (Bismark)
インストールや解析に、はまりどころが結構ある。
Perl のモジュールのGD::Graphをインストールしないと
グラフの出力ができないが、
RHEL では、パッケージの依存性が壊れているようで、
yum でエラーが出る。特定のパッケージをウェブ上で検索し、
rpmコマンドをつかってインストールする必要があった。その
後、perl -MCPAN -e shell でインストール。
(Ubuntu などでは未確認。)
時間がかかる(時間のオーダー、1プロセス数時間)。
メモリもかなり必要(数百ギガのオーダー)。
- 42. 解析の実際15 (Bismark)
このあとすること。(RNA-Seq やChIP-Seqでの作業と類似)
1、アノテーション。
genes.gtf、refFlat.txt から、情報を抽出して、
bash, perl/Python/Ruby などでスクリプトを作って注釈をつけま
す。Methylkit などRのパッケージ他も、使えます。
2、differential methylation
各実験区のbedGraph をマージして、変動比を出し統計解析。
3、機能解析
GO解析とか、パスウェイ解析とか、(DAVIDなどをつかって、、。)
4、モチーフ解析WebLogo, MEME
- 46. NGSデータ解析手順
一次解析
画像データ
から配列データの
抽出
自動化済
ほとんどの場合
FastQ
二次解析
マッピング
アセンブリ
SNP コーリング
ChIP-Seq ピークコーリ
ング
RNA-Seq 発現量係数
その他
多分自動化は容易
三次解析
データマイニング
教師付き学習
教師なし学習
数理モデル化
視覚化
自動化ソフトは多い
がソフトに任せると
危険
ゲノムワイドメチル化解析の場合、コストがまだまだ高いことから、
次世代シーケンサーデータのみでなくマイクロアレイ(イルミナ450Kアレイ)も使用
も考慮します。三次解析は、マイクロアレイとNGSで共通するところも多い。
- 47. 用語の整理(Wikipedia)
• 機械学習
機械学習の目的は、訓練データから学んだ「既知」の特
徴に基づく予測である。
• データマイニング
データマイニングの目的は、それまで「未知」だったデー
タの特徴を発見することである。
厳密に言えば、データマイニングという意味は狭いが、
本スライドでは、教師なし学習と、教師付き学習の両方
を、特に教師付き学習に重点をおいて説明する。
- 51. 線形判別分析のためのRのコード例
手順
① MASSライブラリの利用
② 学習用Data の準備
③ lda()関数で判別関数を作成
④ predict()関数で判別関数による学習用Data の判別結果を得る
⑤ データの集計視覚化、評価
⑥ predict()関数で判別関数によるテスト用Data の判別結果を実施
参考サイト
http://www.slideshare.net/langstat/nagoyar3discriminant
- 52. 線形判別分析のためのRのコード例
> library(MASS) # ① MASS パッケージ使用
> grouping1 <- matrix(c(rep(“1”,25),rep(“0”,25)),nrow=50,ncol=1) # 分類情報を
入力
> (rlt1_1 <- lda(as.matrix(data.z), grouping1))
#③lda()関数により判別関数を得る
Call:
lda(as.matrix(data.z), grouping = grouping1)
…(中略)
Coefficients of linear discriminants: #判別関数の判別係数
LD1
*data.z 実際に入力するデータはここに変数としてデータフレームの形で入力
します。たとえば、メチル化率のデータ、遺伝子発現定量データを用いること
ができます。
- 53. 線形判別分析のためのRのコード例
③判別関数を求めるには、。
fLD = aX1 + bX2 + cX3 + d
判別関数の判別係数は、lda()関数の
Coefficients of linear discriminantsから得られま
す。定数項dは以下の式で求められます。
apply(rlt1_1$means%*%rlt1_1$scaling,2,mean)
詳細は以下を参照してください
http://www1.doshisha.ac.jp/~mjin/R/17.html
http://homepage2.nifty.com/nandemoarchive/GLM/tahenryou_03_discrim.htm
- 54. 線形判別分析のためのRのコード例
④学習データの判別結果
> (rlt1_2 <- predict(rlt1_1))
#判別関数による判別結果を得る
$class # 識別結果
[1] 1 0 1 1 1 1 0 1 1 1 1 1
$posterior # 事後確率
$x # 鑑別スコアLD1
>(result <- table( grouping1, rlt1_2$class ))
#判別関数による判別結果の表示
- 55. 線形判別分析のためのRのコード例
⑤ データの集計視覚化、評価
>plot(rlt1_2$x,main=“Discrimination_Analysis”, pch=20, cex=2,
col = ifelse(rlt1_2$x >= 0, “blue”, “red”)) #判別結果をプロット
>abline(v = 25.5);abline(h = 0)
#判別境界線などをプロットし見やすく
>dev.copy(pdf, file="Discrimination_Analysis:pdf")
>dev.off()
- 59. 実際のデータの入手
• GEO http://www.ncbi.nlm.nih.gov/geo/
• SRA やDRA(DDBJ Sequence Read Archive)
http://sra.dbcls.jp/
http://trace.ddbj.nig.ac.jp/dra/index.html
上記のサイトなどで状況を見れます。臨床事例の集計も
あるようです。
ダウンロードの手順、利用方法は各自調査してください。
- 61. ざっと目についた例を見ると、、。
Series GSE49149 Query DataSets for GSE49149
Status Public on Jul 08, 2014
Title Genome-wide DNA methylation patterns in
pancreatic ductal adenocarcinoma (PDAC)
Organism Homo sapiens
Experiment type Methylation profiling by genome tiling
array
Summary Determine methylation pattern in PDAC a
genome-wide analysis was performed in a cohort of 167
PDAC and 29 adjacent pancreatic tissues samples using the
Infinium 450k methylation arrays (Illumina).
Int J Cancer. 2014 Sep 1;135(5):1110-8. doi:
10.1002/ijc.28765. Epub 2014 May 9.
- 63. ざっと目についた例を見ると、、(2)。
Status Public on Oct 16, 2012
Title Methylation data from glioblastoma tumor samples
Organism Homo sapiens Experiment type Methylation
profiling by genome tiling array
Summary Glioblastoma (GBM) is an incurable brain tumor
carrying a dismal prognosis, which displays considerable
heterogeneity.
Sturm D, Witt H, Hovestadt V, Khuong-Quang DA et al.
Hotspot mutations in H3F3A and IDH1 define distinct
epigenetic and biological subgroups of glioblastoma. Cancer
Cell 2012 Oct 16;22(4):425-37. PMID: 23079654
- 64. Hotspot Mutations in H3F3A and IDH1 Define Distinct
Epigenetic and Biological Subgroups of Glioblastoma
文献に紹介されているヒートマップ