SlideShare a Scribd company logo
生物多様性情報の
標準データフォーマット
Darwin Core Archiveと
生態学データに適合させる拡張形式
"Sample-based Data"
(研)農研機構 農業環境変動研究センター
GBIF日本ノードJBIF
大澤 剛士
参考資料(というかオリジナル)
大澤・戸津(2017)保全生態学研究22: 371-381
(出版されたて)
ポストプリント
アウトライン
・前説
・Darwin Coreの利点と弱点
・新形式Sample Based Data
・今後の期待
・前説
・Darwin Coreの利点と弱点
・新形式Sample Based Data
・今後の期待
前説
大澤 剛士(OSAWA Takeshi)
・(研) 農研機構
農業環境変動研究センター主任研究員
・GBIF日本ノードJBIF ノード運営委員
・オープンデータ、
生物多様性情報学の普及に奮闘中
前説
生物多様性情報学
ビッグデータの利用をはじめ、
近年発展した情報学の技術を駆使して
生物多様性科学の課題に取り組む
前説
日本の権威です(`・ω´・)+
Google Scholarで35件ヒット 上位2つは私のもの
前説
2014年時点では6件しかありませんでした
標準フォーマット
Darwin Core
前説
前説
生物多様性情報学の発展に向けて
重要なピースの一つです
画像:ダ鳥獣戯画
・前説
・Darwin Coreの利点と弱点
・新形式Sample Based Data
・今後の期待
Darwin Core
国際的に検討されている”標準”形式
ガチ情報屋によって改良も進んでいる
https://www.slideshare.net/DagEndresen/201205-darwin-core-extension-for-genebanks-germplasm
Darwin Core
標準形式?
なぜ標準データ形式?(Darwin Core)
データ:
同じ規格のブロックにするようなもの
哲学のない客観事象の統合。記述方法
(データフォーマット)を統一することで統合できる
なぜ標準データ形式?(Darwin Core)
A学校の身体測定
B学校の身体測定
身長 aaセンチ
体重 Aaキログラム
視力 A.A
身長
(cm)
体重
(kg)
視力
bb Bb B.B
学校名 A小学校 B小学校
身長(cm) Aa Bb
体重(kg) Aa Bb
視力 A.A B.B
哲学のない客観事象の統合。記述方法
(データフォーマット)を統一することで統合できる
身体測定データベース
標準データ形式のご利益
採集日 2017/12/9
種名 カハク虫
採集者 大澤剛士
採集した日 種の
名前
採集した人
9. Dec. 2017 カハク
チョウ
T.Osawa
データID 1 2
採集年月日 2017/12/09 2017/12/09
種名 カハク虫 カハクチョウ
採集者 大澤剛士 大澤剛士
生物多様性データについても同様
生物多様性データベース
標準データ形式のご利益
画像:ダ鳥獣戯画
生物多様性の標準データ形式
GBIFおよび関連機関でも推奨
業界標準として受け入れられつつある
https://www.slideshare.net/DagEndresen/201205-darwin-core-extension-for-genebanks-germplasm
なぜ標準データ形式?(Darwin Core)
世界で9億近いデータが自由に使える
https://www.gbif.org/
Darwin Coreの弱点
ただ、Darwin Coreには弱点も・・
Darwin Coreの弱点
“個体”、”種”が単位となっている
種Aの標本
種Bの標本
種Aの観察情報
Darwin Core
調査に行って採集しました
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
Darwin Coreの弱点
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
種Aが6個体、種Bが4個体
=合計10個体(レコード)
4レコード
6レコード
Darwin Coreの弱点
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
種Aと種Bの2種(レコード)
種B
種A
Darwin Coreの弱点
コドラート調査、トラップ調査
個体(標本)にすると”ややこしい”データ
植生調査:
Aの被度40%
Bの被度10%・・・
トラップ調査:
A科が1000以上
B科が~1000
C科が~100
Darwin Coreの弱点
対象種のいる/いない
分布調査でありがちなデータ
いない!
いた! いた!
いない!
Darwin Coreの弱点
世の中の生物多様性データの多くは
“ややこしい”データ
画像:ダ鳥獣戯画
植生図作成
長期モニタリングプログラム
分布調査
環境アセスメント
Darwin Coreの改良
2015年“ややこしいデータ”に
対応させた改良が行われました!
画像:ダ鳥獣戯画
・前説
・Darwin Coreの利点と弱点
・新形式Sample Based Data
・今後の期待
Darwin Coreの新形式
Sample Based Data
“ややこしい”データに対応できる新形式
2015年正式リリース
新しいコア・ファイルを開発
Darwin Coreの構造
Darwin Coreの構造
コアファイル
・オカレンス・コア→個体の在データ
・タクソン・コア→種のデータ
・イベント・コア→本日の主題
●Darwin Coreのコアファイル
コアファイルによって
“何のデータか”を定義する
コアファイル
・オカレンス・コア→個体の在データ
・タクソン・コア→種のデータ
・イベント・コア→本日の主題
●Darwin Coreのコアファイル
コアファイルによって
“何のデータか”を定義する
コアファイル
・オカレンスコア
→“個体”が単位
・タクソンコア
→“種”が単位
・イベントコア
→“イベント”が単位
・イベントコア
→“イベント”、つまり
調査やサンプリングが単位
調査に行って採集しました
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
オカレンス・コア
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
種Aが6個体、種Bが4個体
=合計10個体(レコード)
4レコード
6レコード
タクソン・コア
種Aと種Bの2種(レコード)
種B
種A
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
イベント・コア
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
採集単位たとえばトラップ1つ、
例えば網ひと振り、例えば方形区1個
イベント・コアの中身
必須項目 概説
eventID ユニークID
eventDate イベントを実施した日時
samplingProtocol イベントの実施方法
“イベント”ごとに生物データが付く
イベント・コアの中身
©農業環境変動研究センター(のうかんけん)
©総合地球環境学研究所(ちきゅうけん)
調査が単位
あるときは大漁、あるときはボウズ
その単位も柔軟に決められる
イベント・コアの利点
同じ調査方法による世界中の
データを一元化、比較できる
国際的な期待
様々なデータを統合できる形式
として、国際的にも期待されている
具体例
屋久島における蜘蛛の長期観測
“トラップ1個”が単位
https://www.gbif.org/dataset/f851fd75-32b2-4a23-8046-9c8ae7013a3c
具体例
屋久島における蜘蛛の長期観測
“トラップ1個”が単位
写真提供:馬場友希博士
イベント・コアの中身
必須項目 概説
eventID ユニークID
eventDate トラップを回収した日時
samplingProtocol トラップ調査について詳細
トラップのサイズ等の規格
回収インターバルを明記
最重要ポイント
Sample Based Data
イベント・コア=調査方法の記述
これを詳細に、再現可能に記述すること
ここが曖昧だと、他データとの
統合や比較ができない!
・前説
・Darwin Coreの利点と弱点
・新形式Sample Based Data
・今後の期待
Sample Based Dataの現状
これを適用したデータペーパー
現時点で演者は2本公表しています
Osawa et al.(2017)Biodiversity Data Journal 5: e14789.
https://bdj.pensoft.net/articles.php?id=14789
→屋久島におけるクモのトラップデータ
大澤・和田(2016)Bird Research R1-R8.
https://www.jstage.jst.go.jp/article/birdresearch/12/0/12_R1/_article/-char/ja/
→駅舎におけるツバメの営巣データ
Sample Based Dataの現状
https://www.gbif.org/dataset/search?type=SAMPLING_EVENT
2017年11月時点で140データセット
徐々に増えてきています
Take Home Messages
・Darwin Coreはもともと個体/種を単位とした形式
・これを”調査”を単位にする新形式がSample Based Data
・モニタリングとかトラップとか生態学データも容易に記述
国際的に期待されている
・みんなで試してみましょう!
より詳しい内容は下記論文
大澤剛士・戸津久美子(2017)
「生物多様性情報の標準データフォーマットDarwin
Core Archiveと生態学データに適合させる拡張形
式 "Sample-based Data"」
保全生態学研究.
JBIFのwebサイト上でもポストプリントを公開しています。
http://www.gbif.jp/v2/library/library_nov2017.html

More Related Content

生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"