とあるエンジニアの作業ブログ

Data Analytics 機械学習

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第2回 重回帰 (1) ~

投稿日:2020年11月4日 更新日:


筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。

第3回 2. 重回帰 (1)

用語メモ

Bag of Words
文章中に含まれる単語で one-hot-vector(1-of-k表現) のベクトルを作り特徴量とする方法。
頻度は考えずに単語が出現したかどうかを特徴量とする。
例えば12,000語含む辞書が存在し、その辞書内の単語の出現有無で文章を one-hot-vector にするならば、どんな文章も12,000次元の特徴量に変換できる。
Stop word
日本語で「の」とか「は」とか(多くの場合は助詞)はどんな文章にも現れるため特徴量としては使えない言葉。
多くの場合文章の特徴量抽出において除外される。
TF-IDF
Bag-of-words ではベクトルの要素が”0″, “1”(有無)の値しか取らないが、TF-IDF では出現頻度や特徴的な言葉の出現有無を数値として特徴量に反映される。
TF(term freq.) と IDF(inv. oc. feq.) という値をそれぞれ計算して掛け合わせた値が TF-IDF となるのだが、計算式はググれば出来てくるので割愛。
輝度値特徴
アピアランスベース画像認識と呼ばれる。顔認識などで使われる特徴量。写っているものをそのまま(画像の見え方をそのまま)用いる方法≒補正が必要ない。
例えば顔認識では認証されようとして写るので、顔が遠くに写ったり斜めを向いていたりというのを考慮する必要はない。
 ただし照度などの条件に左右されない様な特徴量の作り方をする。

具体的な特徴量としては画像の輝度値(0~255)を用いる。
ただし、明るかったり暗かったりで輝度値は変わるので、輝度値にベクトルの長さが一定になる様な正規化をする。(方向だけが問題となる様にする。)

輝度値特徴

高次局所自己相関特徴(HLAC)
 角度や位置などによって認識精度が左右されたくないような特徴量とする。
 詳しくは第4回の授業参照。

高次局所自己相関特徴

引用(講義ポイント)メモ

最急降下法で最適解を求める確実な方法はない。

なので何回もやる。最急降下法の初期値はランダムに決定するため、何回もやることで最適値に近い座標に初期値が設定されれば最適解が求まる。
ただし、何回やればよいという確実な回数はないため、あくまでも「何回かされば最適解が求まるだろう」という可能性の話。

実際にはこんな単純な話ではなく問題に対してある程度仮定をおかないと最適解に近づくことは出来ず、結論的には多項式時間で最適解を求めることは現実的には不可能。

局所最適回避法

覚えるべきは転置ベクトルと列ベクトルの積は内積。機械学習で使う内積表現(スカラ)に慣れる。
行列計算1

行列計算2

ベクトルの微分定義を覚える。
行列計算3

行列計算4

データの前処理

  • 欠損値への対応 ··· 欠損値を含むサンプルを除去する。平均値・中央値で補完する など
  • 外れ値への対応 ··· 極端な外れのデータは除外する(測定ミスの可能性)
  • スケーリング(標準化) ··· 各特徴が平均が0,標準偏差1になるようにする。(最大値が1、最小値が0になるようにするといった方法もあり) => なぜか? => ある特徴量は 0~100 の値をとり、別の特徴量は 0~1 の値を取る。それぞれの特徴量の重み\(w\)はどちらも0.3だった。モデルに対する影響はどちらの特徴も一緒か?答えはNo(\(x\)の定義域が違うので)。スケーリングとは(\(x\)、すなわち各特徴量の定義域を(平均0, 標準偏差1にすることで)揃えて等価に評価できるようにする処理。
日本語の文章の特徴量化は英語ほど単純ではない。

 単語間の区切りが明確でないので形態素解析をして単語にわけ、そこから Stop word除去を行い、それを Bag-of-words でベクトル化するなど。
日本語文章の特徴量化

画像の特徴ベクトル化。
必要な情報を残し不要な情報を削除する。

  • 顔認識 ··· 輝度値特徴
    有効:顔の見え方そのもの
    不要:画像の明るさ(≒証明の影響)
  • 物体認識 ··· 高次局所自己相関特徴
    有効:見え方、色、形状、個数
    不要:物体の位置(左上に物体があろうが中央にあろうが認識して欲しい)

-Data Analytics, 機械学習
-,

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第1回 機械学習概論と単回帰 (1) ~

筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。 第1回 1. 機械学習概論と単回帰 (1)。 用語メモ 機械学習とは・・・? 人間が持っている学習能力(知的処 …

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第2回 重回帰 (2) ~

筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。 第3回 2. 重回帰 (2)。 用語メモ 高次局所自己相関特徴(HLAC)  角度や位置などによって認識精度が …

Pythonほぼ初心者が作る画像分類評価 ~多ラベル分類編~

Python初心者に毛が生えた程度の筆者が画像分類の評価をした時のお話。 ただのPython文法メモ的な。 目次 分類問題設定 動作環境 作った物 自分的文法メモ 分類問題設定 1000枚ぐらいある画 …

「詳解 ディープラーニング 第2版」を読んで ~単純パーセプトロンの実装~

目次 ニューラルネットワークとディープラーニング 単純パーセプトロンの実装 ニューラルネットワークとディープラーニング ニューラルネットワーク ··· 脳がニューロンとそのネットーワークで情報処理する …

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第1回 機械学習概論と単回帰 (2) ~

筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。 第2回 1. 機械学習概論と単回帰 (2)。 用語メモ 平均二乗誤差 一つのデータに対する Error(誤差) …