YoJlのポケット

勉強したことや学んだことを記録しています。

分散仮説について

分散仮説について

自然言語処理を行っていく上で重要な概念があります。
それが、分散仮説というものです。
分散仮説とは、意味が似ている単語は類似した文脈で出現するという仮説のことです。

分散仮説に関連して開発された手法

①Count-basedな手法
様々な文脈の中で登場する単語の頻度を算出し、共起行列を作成する手法のことです。
スパース(疎なデータ)のため、扱いづらいものが多く、何らかの手法で情報集約して次元を減らすのが一般的です。
例:LSI(潜在意味インデックス)

②Predictiveな手法
分散仮説に基づくタスクを通して、単語(もしくは文)のベクトルを学習して取得する手法のことです。
次元数は予測アルゴリズム内で自由に決められます。
例:Word2Vec

①と②の共通した特徴
次元圧縮された潜在変数の空間に単語(もしくは文)がマッピングされているので、One-hot表現のように一つの要素(≒単語)にしているような表現ではなく、複数の要素が一つの概念を構成し、一つの要素が複数の概念を構成しているmany-to-manyな表現です。

p.s. 最近、HIIT(High-Intensity Interval Training)という、短時間で心拍数を「上げる下げる」を繰り返すことで大きなエネルギーを消費してくれるトレーニングをしているのですが、痩せたい方や運動する時間があまりとれない方にすごくオススメです。15分程度で汗が滴りまくります。