とあるエンジニアの作業ブログ

Analytics コンサル 備忘

【入門】専門じゃない人のためのデータ分析でよく使う用語まとめ

投稿日:2020年1月16日 更新日:

データ分析とか統計の本を読んでいるとよくでてくる用語で、数学とか統計とかそういう畑を出てない自分にとって馴染みの薄いものを備忘的にまとめていくメモ。

ハレンチ
無料サンプル
彼女の雌顔 デジタルモザイク版
無料サンプル
SEKI-LALA美少女
無料サンプル
終末のハーレム セミカラー版
無料サンプル
用語 概要
因子 因果関係の原因となる項目。
e.g.)
人の顔認識における目、鼻、口の位置など
強化学習 強化学習とは、試行錯誤を通じて「価値を最大化するような行動」を学習するもので、有名なものではAlpha Go(囲碁のAI)。
与えられた「環境」における価値(あるいは「利益」と呼びます)を最大化するように「エージェント」を学習させる。
例えば「環境」=「囲碁」、「価値」=「地。囲碁の得点。すなわち将来的な勝敗」、「エージェント」=「打ち手。すなわちAIボット」のこと。
「ある状態 s においてある行動 a を取った時の価値」をエージェントに学習させる。この価値のことをQ値、あるいは状態行動価値と呼ぶ。
ある時点 t におけるQ値は、次の時点 t+1 におけるQ値で表すことができるが、t+1時点のQ値を知るためにはt+1時点での期待値を知らなければならず、これは現実的には不可能(未来予測に等しい)ので、代替手段として実際に行動を実施して次の時点の状態を確認しながら、少しずつQ値を更新するトレーニングを行う。実際に行動した結果のサンプルで期待値の代用とするわけである。
代表的なアルゴリズムに、「Q学習」「Sarsa」「モンテカルト法」などがある。
https://blog.brainpad.co.jp/entry/2017/02/24/121500
クラスタリング データをいくつかの似ているデータの集まり(クラスタ)に分類します。
欠損値 とある変数のデータの欠落のこと。システムチックに言うと、Not Nullの項目に対してデータの観測不正などでNull値が入っていたり、本来であればプラスの値しか入らない変数にマイナスの値が入っている状態。
コサイン類似度 コサイン類似度とは、ベクトル空間モデルにおいて、ベクトル同士を比較する際に用いられる類似度計算手法。「コサイン類似度=ベクトルのなす角のコサイン」となります。
文章をベクトル表現した場合に文章間類似度を判定する際に用いる。
混同行列 クラス分類の結果をまとめた表(行列)のこと。縦軸が正解データ、横軸が予測データとなる。
e.g.)
猫を「猫」/「猫じゃない」と分類する問題で、本当の猫を正しく「猫」と判定(陽性)できた個数と、「猫じゃない」と誤って判定(陰性)した個数をまとめたクロス集計表。
数値分類 特徴量からA,B,Cのいずれかに分類するタイプの問題。
e.g.)
キャンペーンなどの実施により「会員登録する/会員登録しない」に分類
ウェブサイトで表示される広告を「クリックしない/クリックする」に分類
ユーザーの趣向性を数値化して「地域特性など数パターン」に分類
クレジットカードや ATM の利用特性から「正当利用/不正利用」に分類
数値回帰 大小関係に意味のある数値(販売数であれば 100 個と 200 個では大小に意味がある)を予測する課題。
e.g.)
店舗への来店者数や商品の販売数
交通機関の利用者数
Z得点(Z-Score) 正規化するときの手法の一つ。Z得点(z値、z-score、z-value)とは、平均が0、標準偏差(SD)が1になるように変換した得点。
ちなみに偏差値は、母平均50、標準偏差(SD)が10となるように変換した得点。
全体精度(Overall Accuracy) クラス分類における精度の評価指標のひとつ。一般的に精度と呼ばれるもので「正解数/データ数」で計算できる。
※特定のカテゴリに偏りのあるデータでは適正に評価できないという問題がある。
探索的データ解析(Explanatory Data Analysis) データ分析する際にまずはデータに触れてみて、データを視覚化したり、データのパターンを探したり、基礎統計、特徴量やターゲットの関係性/相関性を感じとる作業。
敵対的生成ネットワーク(Genera tive Adversarial Networks, GAN) GANは生成モデルであり、データの特徴を抽出して学習し、実在しないデータを生成する生成モデルに分類される手法。
2つのニューラルネットワークを互いに競わせて入力データの学習を深めていく学習アーキテクチャをとる。
本物そっくりの人の顔を生成したりするのが有名。
GANは正解データを与えるのではなく特徴を学習する(教師なし学習)。与えられたインプットにその特徴を付加して出力することができ、すなわち白黒社員をカラーにしたり、人の顔を加工したり、写真を油絵にしたりといったことが可能になる。
GAN:敵対的生成ネットワークとは何か ~「教師なし学習」による画像生成
GAN(敵対的生成ネットワーク)とは|意味・仕組み・応用例
転移学習 ある領域で学習したこと(学習済みモデル)を別の領域に役立たせ、効率的に学習させる方法。
https://udemy.benesse.co.jp/ai/transfer-learning.html
二乗平均平方根誤差(RMSE:Root Mean Squared Error) 数値回帰における誤差の評価指標の一つ。二乗を平均して平方根をとったもの。
BigQueryのテーブル分割 https://qiita.com/aki-takano/items/3eaa57e700ac084d33d8
白色化 成分間(データの特徴間、変数間)の相関をなくす処理のこと。
データxの任意の2成分間で相関がなくなる、ということはつまり、共分散行列が対角行列になれば良い。
基本的な機械学習のアルゴリズムでは、白色化の有無によって結果が変わるようなものではないらしい。
平均絶対誤差(MAE:Mean Absolute Error) 数値回帰における誤差の評価指標の一つ。誤差の絶対値を平均したもの。
平均精度(Average Accuracy) クラス分類における精度の評価指標のひとつ。カテゴリ毎の精度の平均値。
「Aの正解数/Aのデータ数」というようにカテゴリ毎に精度を計算し足してカテゴリ数で割る。平均精度はデータ数の少ないカテゴリも評価へ反映できるという特徴がある。
マルチモーダル マルチモーダル(Multimodal)なデータは、「ひとつのデータに対する情報が複数(multi)の形式(mode)で存在しているデータ」と説明できる。
例えば動画配信サイトで配信されている動画には、映像・音声・説明文と、ひとつのビデオについて少なくとも3つの形式で情報が存在していると考えることが可能。
https://tech.mercari.com/entry/2018/04/24/164919
Accuracy (正確度) 分子:True Positive(真値、予測共にPositive) + True Negative(真値、予測共にPositive) = 予測が正しかったもの
分母: 全数
Accuracyは、予測が正しかった割合。
(Accuracyの問題点)
たとえば、全患者のうち2%の入院数だとして、
機械学習モデルが、全て”入院しない” と予測したとしても、
Accuracyは98%を叩き出してしまう。98%のAccuracy・・・一聴するとすこぶる良い機械学習モデルが作成されたように思えるが、実際には必ずしもそうではないということ。
この問題を解決するためにPrecisionとRecallという指標も見て評価するのが一般的。
https://qiita.com/unohisa/items/00d94f5cfe3f2e5d03b9
DBSCAN 密度準拠クラスタリングのアルゴリズムのひとつ。
以下の記事の解説がわかりやすい。
DBSCANクラスタリングの解説と実験
Precision(精度 ・ 適合率) 分子: True Positive (真値、予測共にPositive)
分母: True Positive + False Positive = Positiveと予測したもの

Positiveと予測したもののうち、実際にPositiveだったものの割合。正確性をみることができる。
再現率(recall)とは、トレードオフの関係である。
Precisionでは、False Negativeは鑑みないので、網羅性はみることができない。網羅性をみるのはRecallである。
https://qiita.com/unohisa/items/00d94f5cfe3f2e5d03b9

Recall(再現率) 分子: True Positive (真値、予測共にPositive)
分母: True Positive + False Negative = 予測にかかわらず実際にPositiveなもの

Recallは、予測にかかわらず実際にPositiveのもののうち、Positiveと予測し実際にPositiveだったものの割合をみるものだ。網羅性をみることができる。Recallが高いということは、取りこぼしが少ないということ。Recallが低いということは、取りこぼしが多いということだ。
適合率(precision)とは、トレードオフの関係である。
なお、Recallは、Positiveと予測したが実際にはNegativeだったものは鑑みない。つまり、正確性は考慮しないということだ。正確性をみたいのであればPrecisionをみる。
https://qiita.com/unohisa/items/00d94f5cfe3f2e5d03b9

VAE(オートエンコーダー、自己符号化器) 分類器における学習方法(適用アルゴリズム)の一つ。
与えられた情報から潜在変数(圧縮されたインプットの特徴量)を生成するエンコーダーと、潜在変数からインプットを生成するデコーダの対で成り立っており、与えられた情報を正確に復元できるような潜在変数を学習することで、潜在変数の次元削減を可能とする。
一方で、CNNなどのアルゴリズムに次元削減の仕組みが組み込まれたことにより、次元削減という本来の目的での用途は減ってきており、現在では特に正常画像しかない場合の異常検知に用いられる。
https://products.sint.co.jp/aisia-ad/blog/deep-learning-vol.3

-Analytics, コンサル, 備忘
-

執筆者:


comment

メールアドレスが公開されることはありません。

関連記事

システムにおける適応度関数 〜進化的アーキテクチャを読んで〜

オライリーの進化的アーキテクチャを読んで、重要そうなポイント、特に適応度関数について自分用まとめ。 はじめに断っておくと、この本は「システムアーキテクチャを変更する際にこういう風にしておけば容易に変更 …

Pythonほぼ初心者が作る画像分類評価 ~多ラベル分類編~

Python初心者に毛が生えた程度の筆者が画像分類の評価をした時のお話。 ただのPython文法メモ的な。 目次 分類問題設定 動作環境 作った物 自分的文法メモ 分類問題設定 1000枚ぐらいある画 …

リスクベースドテストにおけるリスク定義方法

リスクベースドテストにおけるリスク定義方法のメモ。 主に、リスク定義する上でのリスク算出要因(影響度(Damage), 発生確率(Probability of Failure))と重みづけ方法、及びリ …

『統計学が最強の学問である』を読んで自分用メモ

西内啓さんの「統計学が最強の学問である」を読んで自分用のメモ。 自分用なのでかなり偏ってます。 目次 データをビジネスで使うための「3つの問い」 サンプリング収集したデータが十分であるかどうかを検証す …

改めてリーンスタートアップの要点まとめ(3/3) 第3部

リーンスタートアップの第3部のまとめ。 第1部、第2部のまとめは以下から。 第1部 第2部 目次 リーン実践にあたっての案件サイズ(バッチサイズ) :本書 9、11章に対応 事業拡大において注力すべき …