SlideShare a Scribd company logo
標本レコード修正のための
OpenRefineガイド(ド基礎編)
https://openrefine.org/
乱雑なデータを扱うための
オープンソースの強力なツール
東京都立大学
GBIF日本ノードJBIF
大澤 剛士
2020/7/24
この資料の内容
この資料は2020/7/21-24にかけて行われた
GBIF BIFA (Biodiversity Information Fund for Asia)
Data Mobilization Workshop for Asia 2020の内容を
元に大澤が作製したものです(GBIF許可済��)。
OpenRefineには色々な機能がありますが、
ワークショップ内で紹介された
標本等のデータを扱う上で有用な使い方の
エッセンスのみを紹介します。
なお、ExcelやRで標本レコードのクリーニング経験が
ある人の利用を想定しているため、背景情報等は
全く出てきません。
この資料の目的
OpenRefineを使って(主に)標本レコードの
ミスや表記ゆれを修正し、データの質を上げる
GBIFで公開
研究用の解析
エラーやミスを修正
(データ掃除)
エラーやミスのある
生データ
OpenRefineとは
https://openrefine.org/
文字化けとかスペルミスとか
入力ミスを修正するのに超便利
定番のExcelやRより効率的
・ オープンソースのデータ成型ツール
・ Javaで動くマルチプラットフォーム(OS非依存)
・ スタンドアロンで使えるが、API経由で外部データを
取り込んだり照合したり色々できる
OpenRefineの導入
https://openrefine.org/
・ githubからβ版や過去版をダウンロード(プロ向け)
https://github.com/OpenRefine/OpenRefine/releases/tag/3.4-beta2
・ OpenRefineのページからダウンロード
・ zipを解凍し、exeファイルをクリック
(Java JREがない場合は導入。その場合は誘導してくれる)
・ webブラウザ上で開かれる
(winの場合コマンドプロンプトが何かごちゃごちゃやるが問題ない)
初期画面とデータの取り込み
ブラウザ上で動作する(画面はfirefox)
成型したいデータを選択する
(csv, tsv, xls, xlsx, rdf, JSON,xml等、
基本一般的なデータ形式全てに対応)
ファイル認識と文字コード
日本語入りだと化けがち
(文字)コードに注意
原則UTF-8にしておく
←ここで文字コード、ファイル形式を指定
ファイル認識と文字コード
文字コードをUTF-8にする
日本語も読めるように
なりました。
プロジェクト作成
レコードをちゃんと読めていたら
プロジェクト名(任意。デフォはファイル名)
を入力したら Create Projectをクリック
これが基本画面
プロジェクト画面
プロジェクト名
プレビューさせるレコード数は適宜変更できる
合計レコード数
名寄せ
SpecificEpithetの名寄せをしてみます
扱いたいフィールド横の▼を押し、
Facet -> Text facet
このフィールドのデータ項目一覧、
各項目のレコード数が表示されました
続いて、Clusterを押します
名寄せ
名寄せ
めっちゃ似てるよって項目が出てきます。
このケースは、スペルは同じですが、
下段はアタマに半角スぺ-スがあるみたいです
そこで、上段に揃えることにします
左のMerge?にチェックを入れます
Merge Selected & Re-Clusterを押します
名寄せ
無事マージされました
エラーつぶし(一括)
次はmunicipalityのミススぺルや
文字化けを修正します
扱いたいフィールド横の▼を押し、
Facet -> Text facet
エラーつぶし(一括)
選択フィールドのレコード集計が
表示されました。不要なら上のspeficicEpithetの
ボックスは消してしまってください。
文字化けで?が多数入っています。
試しに?yama(Mt.)を選択してみます
エラーつぶし(一括)
?yama(Mt.)を含むレコードが表示されました
エラーつぶし(一括)
エラーつぶし(一括)
この状態でカーソルを合わせると
右に edit が出てきます。それをクリックします。
そうするとこのように修正画面になります。
これを修正してApplyを押すと、12レコード全て
同様に修正されます
Undo / Redo
修正作業内容は記憶されているので、
しくったらUndo(戻す)、Redo(もう一回実施)できます
作業を途中でやめる
同じPCで作業を行う場合は、このURLをメモして
OpenRefine立ち上げ後にブラウザに入力すれば
作業再開できます
別PCで作業を継続したい場合はプロジェクトを
Exportする必要があります(次ページ)
エクスポート
作業結果を出力します
基本画面にある
Exportボタンを押します
エクスポート
作業結果を出力します
色々な形式で出力できるので、
扱いやすい形式で出力できます。
←プロジェクトを他PCに
持って行きたいときはコレ
ファイル出力するフィールドを
選ぶこともできる(次ページ)
エクスポート
出力する形式やフィールドを
カスタマイズできます
まとめ
・標本データの成型に役立つデータ成型ツール
・ 基本機能のみ紹介。まだまだ色々できる
例えば文字エラーや名寄せだけでなく
数字の飛び値やデジットミス等も��せる
・たぶんExcelやRより圧倒的に楽で早い
・色々役立つ機能があると思うので、見つけたら
シェアしてください

More Related Content

標本レコード修正のためのOpen refine(ド基礎編)