とあるエンジニアの作業ブログ

Analytics Python コンサル ビジネス書要約 自然言語処理

様々な言語モデルを箇条書きで解説

投稿日:

本やWebで調べた自然言語処理における言語モデルやアルゴリズムに関する知識を箇条書きまとめ。

文章の確からしさ 5-gram言語モデル(n-gram言語モデル)

  • n-gram言語モデルは単語の出現確率がその直前のn-1個の単語で決まる
  • 例えば、「私は本を買った」の出現確率は以下で求められる。
    $$P(私は本を買った) = P(私|文頭) \times P(は|私) \times P(本|は) \times P(を|本) \times P(買った|を)$$
  • 日本語のある種の傾向を捉えている。「私」の後に主題を表す「は」は現れやすいし、「本」は物なので対象を表す「を」が続きやすいといった具合
  • 実際は、大規模なコーパス(事前に形態素解析されたもの)から直前のn単語を考慮した場合の語の出現確率が計算される
  • 文章の確からしさがわかれば、音声認識において「私和音多かった。」と「私は本を買った」のどちらが確からしいのか判定できる
  • 5-gramはGoogleが大規模なWebコーパスから計算したもの。英語5-gramや日本語5-gramなどが有効であることが知られている
  • ちなみに、この直近n回を考慮するという性質をマルコフ性と呼び、n階マルコフモデルという

文書中の語の重要度 TF-IDF法

  • TF(Term Frequency) ··· 文書中における語の出現頻度
  • IDF(逆文書頻度:Inverted Document Frequency) ··· 文章が「言語 問題」である場合、”言語”の方が検索においてより重要度が高いと考えられる。このような違いを表現する尺度のこと。
  • TF-IDF法 ··· ある語の文書中の重要度をTFとIDFの積で求める方法

最新の汎用言語表現モデル BERT

  • 2018年10月にGoogleが発表
  • SOTA(State of the Art)で最高得点を出し注目を浴びている
  • 事前学習済のモデルに対してファインチューニング(最終層の入れ替え+パラメタチューニング)で新たなモデルを生成
  • 従来は単語の組合せ(n-gram)を特徴量として用いてきたが、組合せの種類が膨大になり十分な訓練サンプルが確保できなくなるなどの問題があった
  • 「表現学習」は特徴量を自動的に学習させる手法。大規模なデータを元に表現学習を行うと汎用的な特徴量抽出器となることが期待される(事前学習:Pre-Training
  • 一般的な依存関係が事前に与えられていれば、あるタスクを解くために必要な特徴が入力に出現していなくとも事後学習でそれを補うことができる
  • BERTは大規模コーパスから事前学習させたモデルに対して、タスクごとに事後学習を行わせる
  • あらゆる自然言語処理タスクはこのBERTを土台にして取り組めるのではという機運が高まっている
  • https://qiita.com/Kosuke-Szk/items/4b74b5cce84f423b7125
  • https://qiita.com/neonsk/items/27424d6122e00fe632b0

-Analytics, Python, コンサル, ビジネス書要約, 自然言語処理
-, ,

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

絵で見てわかる量子コンピュータの仕組み アニーリング編

『絵で見てわかる量子コンピュータの仕組み』まとめ アニーリング編

アニーリングについて概要レベルをさらっと勉強したかったので「絵で見てわかる量子コンピュータの仕組み」を読了。 アニーリング部分についてまとめ。 作中で該当する部分は1、2、3、7、8章。 目次 量子コ …

改めてリーンスタートアップの要点まとめ(2/3) 第2部

リーンスタートアップの第2部のまとめ。 第1部のまとめはこちら。 目次 構築→計測→学びのサイクルと事業拡大/転換 :本書 5、6、7、8章に対応 構築・検証プロセスにおける特記 :本書 6章に対応 …

システムアーキテクチャ設計メソトロジー

システムアーキテクチャ設計のメソトロジー(方法論)をメモ。 目次 アプリケーションの原則とアーキテクチャパターン(Application Principle and Architecture Patt …

中心極点定理ぃぃぃ????

【備忘】中心極限定理に関する自分なりの解釈

中心極限定理を自分なりに腹落ちするためのメモ。 要するにの中心極限定理の理解は、 元データが正規分布に従ってなくても、そのデータをサンプル抽出していくつか足し合わせたものはたいてい正規分布に従う とい …

Kubernetes入門 ~Kubernetes完全ガイドを読んで~

Kubernetesを学ばないとだんだん話についていけなくなってきたので止む無く勉強を始めた。 とりあえずKubernetes完全ガイドという、今のところ日本語だと一番良いと聞いたのでそいつで勉強。 …