とあるエンジニアの作業ブログ

Data Analytics 備忘 機械学習

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第1回 機械学習概論と単回帰 (2) ~

投稿日:2020年10月28日 更新日:


筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。

第2回 1. 機械学習概論と単回帰 (2)

用語メモ

平均二乗誤差
一つのデータに対する Error(誤差) は、
$$error = |t_i – (wx + b)|$$
\(t_i\) が実測値。\(wx + b\) が予測式そのものなので予測値。

データがN点あり、計算処理のしやすさも考慮して絶対値で無く二乗値の平均誤差を求める。

$$E(w, b) = \frac{1}{N}\sum_{i=1}^N (t_i – (wx_i + b))^2$$

これが平均二乗誤差。
この誤差を最小にする\(w\) と\(b\) を取るモデルが最良と言える。

最急降下法
平均二乗誤差を最小にする\(w\) と\(b\) を求める数学的な手法。
詳細後述。
\(arg min\)
数学記号。以下で\(f(x)\) を最小にする \(x\) を求めなさいという問題。
mathjax で argmin がサポートされてないっぽいので画像で。
argmin

引用(講義ポイント)メモ

最急降下法の考え方。

前提

  • 関数\(f(x)\) は微分可能
  • 関数\(f(x)\) は凸関数

最急降下法の考え方

演習問題解説。

演習問題1
演習問題2

これは単回帰の場合で変数が一つなので非常に単純。実際の機械学習では変数を複数扱うので、ベクトルでの微分となる。

機械学習で扱う特徴量は全て数値ベクトルの形を取るが、実際に取得可能なデータ全てが数値の形になっているわけではない。

大まかにデータは3種類の形を取る。

  • スカラ ··· スカラ・ベクトルで表される属性。要は元々数字のもの。年齢や収入、気温など
  • 順序属性 ··· 順序関係を持つ属性。数値ではないけどなにかしらの順序関係を持つもの。成績評価のA,B,C,Dなど
  • カテゴリカル属性 ··· 順序関係も持たず数値でもない離散的な値を持つ属性。血液型とかグルーピングとか
機械学習で扱うには順序属性もカテゴリカル属性も数値属性に変換する必要がある。

順序属性は順序性を維持したままスカラ値(数値)に変換すればOK。
例えば、
A => 5, B => 4, C => 3, D => 2 など

カテゴリカル属性はよくあるのは 1-of-k変換(one-hot encoding) で表現する。
例えば血液型の場合は4種類あるので、2次元(2の二乗)ベクトルで表現する。
A => (0,0), B => (0,1), => O => (1,0), AB => (1,1)
属性値がN種類ある場合は \(k = \log{2}N\)

機械学習の性能評価のために使うデータに Adultデータ というものがある。

5万人弱の個人の様々な属性データが蓄積されており、その個人が年収5万ドルを超えるかどうか予測する。

実際に機械学習に取り組む前にデータをヒストグラムなりなんなりで可視化して見て欲しい。

例えば Capital Gain, Capital Loss というデータは非常にばらつき(偏り)が大きく、全体としての予測率を上げたい場合にはあまり役に立たないかもしれないと考えることができる。
理由は、一部の人を覗きほとんどが同じ属性を持っているため、その属性のせいで一部の人の予測精度が影響を受けたとしても大部分の人の予測精度は変わらないと予想できるら。

このように、自分が相手にしようとしているデータがどういう物なのかを把握することが重要。

-Data Analytics, 備忘, 機械学習
-

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

Tableau Onlineのログインユーザーごとにデータ参照先を変更する方法

Tableau Online でログインユーザーごとにそのユーザーの権限に応じてデータ参照範囲を動的に制御するという実装を行った。 Tabluau 用語で言う行レベルセキュリティというやつ。 日本語で …

筑波大学 佐久間 淳先生の機械学習講義の学習メモ ~ 第1回 機械学習概論と単回帰 (1) ~

筑波大学 システム情報系教授 佐久間 淳先生の機械学習の講義を見て勉強したので学習メモ。 第1回 1. 機械学習概論と単回帰 (1)。 用語メモ 機械学習とは・・・? 人間が持っている学習能力(知的処 …

「詳解 ディープラーニング 第2版」を読んで ~単純パーセプトロンの実装~

目次 ニューラルネットワークとディープラーニング 単純パーセプトロンの実装 ニューラルネットワークとディープラーニング ニューラルネットワーク ··· 脳がニューロンとそのネットーワークで情報処理する …

【備忘】ChromeのMarkdown Preview Plusプラグインでプレビューできなくなった時の対処法

ChromeでMarkdown Preview Plusというプラグインを使ってライトにマークダウンを読んでたんだが、急にマークダウンがPreviewできなくなった。 色々試した結果、なぜかファイルU …

【備忘】gitのglobal userとlocal user使い分け

Macで初めてgit commitした時に、「お前は誰だ?」的な感じで怒られた。

でユーザー名とメールアドレスを指定する必要があるらし …