SlideShare a Scribd company logo
データ表現のパターン
鷲崎 弘宜
早稲田大学 / 国立情報学研究所 /
システム情報 / エクスモーション
2021年 11月10日
washizaki@waseda.jp
http://www.washi.cs.waseda.ac.jp/
1
出版記念セミナー: AI活用成熟度と機械学習デザインパターン詳説
データ表現パターン
2
• 様々なデータから機械学習モデルが扱いやすい特徴量への表現
パターン 問題 解決
特徴量ハッシュ
Hashed Feature
カテゴリ型特徴量に関連する問
題(不完全な語彙、値の種類の
多さに伴うモデルの大きさ、
コールドスタートなど)。
文字列表現の決定的かつ可搬
性のあるハッシュをバケット
化し、データ表現における衝
突のトレードオフを許容
埋め込み
Embeddings
値の種類が多く、関係性の近さ
の保持が重要な特徴量
問題上で関係のある情報が保
持されるように、値の種類が
多いデータを低次元の空間に
マッピングするデータ表現を
学習
特徴量クロス
Feature Cross
特徴量が持つ関係性を学習する
上でのモデルの複雑性の不足
入力値の組み合わせを明示的
に個別の特徴量とし、モデル
による入力間の関係性の学習
を加速
マルチモーダル入力
Multimodal Input
複数のデータ表現が存在する場
合の選択方法
使用可能なデータ表現を連結
『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021
特徴量ハッシュ Hashed Feature
• 問題: カテゴリ変数についてとりうる種類を特定困難。One-hot encodingで
はout-of-vocabulary問題・Cold-Start問題。
• 解決:
• 1. ユニークな文字列へ変換
• 2. 決定的な方法でハッシュ値に変換
• 3. ハッシュ値の設定バケット数(カテゴリ数)の剰余の採用
• 考慮: バケット衝突、他の集約特徴量併用、バケット数チューニング
3
ワンホットエンコーディング
tf.feature_column.categorical_column_with_hash_bucket(
airport, num_buckets, dtype=tf.dtypes.string
)
特徴量ハッシュ
TensorFlowに
おける実装
『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021
埋め込み Embeddings
• 問題: カテゴリ数が膨大な場合の難しさ(疎行列化)。ワンホットエン
コーディングではデータの近さを扱えない。
• 解決: 訓練可能な特徴埋め込みレイヤで意味的な近さを表すように小次元
のベクトル化、および、重みの訓練
• 考慮
• 経験則: 次元数 = 元のカテゴリ数の4乗根
• テキスト: 語単位の小次元ベクトル表現、平均をとるなどの集約。Word2VecやBERT
などのさらなる意味・文脈考慮。
• 画像: 畳み込みCNN、オートエンコーダなど
4
オートエンコーダ
『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021
その他のデータ表現パターン
5
x × y ラベル
AC +
BC -
AD -
BD +
A
B
C
D
特徴量クロス
マルチモーダ
ル入力
x
y
『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021

More Related Content

データ表現のパターン

  • 1. データ表現のパターン 鷲崎 弘宜 早稲田大学 / 国立情報学研究所 / システム情報 / エクスモーション 2021年 11月10日 washizaki@waseda.jp http://www.washi.cs.waseda.ac.jp/ 1 出版記念セミナー: AI活用成熟度と機械学習デザインパターン詳説
  • 2. データ表現パターン 2 • 様々なデータから機械学習モデルが扱いやすい特徴量への表現 パターン 問題 解決 特徴量ハッシュ Hashed Feature カテゴリ型特徴量に関連する問 題(不完全な語彙、値の種類の 多さに伴うモデルの大きさ、 コールドスタートなど)。 文字列表現の決定的かつ可搬 性のあるハッシュをバケット 化し、データ表現における衝 突のトレードオフを許容 埋め込み Embeddings 値の種類が多く、関係性の近さ の保持が重要な特徴量 問題上で関係のある情報が保 持されるように、値の種類が 多いデータを低次元の空間に マッピングするデータ表現を 学習 特徴量クロス Feature Cross 特徴量が持つ関係性を学習する 上でのモデルの複雑性の不足 入力値の組み合わせを明示的 に個別の特徴量とし、モデル による入力間の関係性の学習 を加速 マルチモーダル入力 Multimodal Input 複数のデータ表現が存在する場 合の選択方法 使用可能なデータ表現を連結 『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021
  • 3. 特徴量ハッシュ Hashed Feature • 問題: カテゴリ変数についてとりうる種類を特定困難。One-hot encodingで はout-of-vocabulary問題・Cold-Start問題。 • 解決: • 1. ユニークな文字列へ変換 • 2. 決定的な方法でハッシュ値に変換 • 3. ハッシュ値の設定バケット数(カテゴリ数)の剰余の採用 • 考慮: バケット衝突、他の集約特徴量併用、バケット数チューニング 3 ワンホットエンコーディング tf.feature_column.categorical_column_with_hash_bucket( airport, num_buckets, dtype=tf.dtypes.string ) 特徴量ハッシュ TensorFlowに おける実装 『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021
  • 4. 埋め込み Embeddings • 問題: カテゴリ数が膨大な場合の難しさ(疎行列化)。ワンホットエン コーディングではデータの近さを扱えない。 • 解決: 訓練可能な特徴埋め込みレイヤで意味的な近さを表すように小次元 のベクトル化���および、重みの訓練 • 考慮 • 経験則: 次元数 = 元のカテゴリ数の4乗根 • テキスト: 語単位の小次元ベクトル表現、平均をとるなどの集約。Word2VecやBERT などのさらなる意味・文脈考慮。 • 画像: 畳み込みCNN、オートエンコーダなど 4 オートエンコーダ 『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021
  • 5. その他のデータ表現パターン 5 x × y ラベル AC + BC - AD - BD + A B C D 特徴量クロス マルチモーダ ル入力 x y 『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021