統計学と機械学習の基本用語

統計学と機械学習の基本用語を解説。標本・パラメータ・推定などの統計用語から、教師あり学習・教師なし学習の代表的タスクまでを整理します。

統計学の用語

  • 標本: 調査や分析の対象となるデータ群から抽出された個々の要素や観測対象。
  • 観測値: 標本から得られた具体的な数値やデータ。
  • パラメータ: 確率分布や統計モデルの特性を決定する未知の数値。例えば、正規分布における平均や分散など。
  • 検定: 統計的仮説検定のこと。データに基づいて、ある仮説(例: 2つのグループ間に差があるか)が統計的に正しいかどうかを判断する手法。
  • 推定: 既知のデータから、未知のパラメータや将来の値を推測すること。点推定(単一の値を推測)と区間推定(値の範囲を推測)がある。

機械学習の用語

  • 学習・訓練 (Learning/Training): 機械がデータからパターンや規則性を自動的に見つけ出し、モデルを構築するプロセス。
  • タスク (Task): 機械学習によって解決しようとする具体的な問題や目標。

教師あり学習 (Supervised Learning)

入力データとそれに対応する正解の出力(教師信号)のペアを多数与え、それらの関係性を学習して、未知の入力に対する出力を予測するモデル(識別モデル)を構築する手法です。

代表的なタスク:

  • 分類 (Classification): 入力を、あらかじめ定義された有限個のカテゴリ(クラス)のいずれかに割り当てるタスク。例: スパムメールの識別、画像認識。
  • 回帰 (Regression): 入力から連続的な実数値の出力を予測するタスク。例: 株価予測、住宅価格予測。

教師なし学習 (Unsupervised Learning)

正解の出力(教師信号)が与えられないデータから、データ自身の構造やパターンを発見する手法です。データがどのように生成されたかというメカニズム(生成モデル)を学習することが目的となる場合が多いです。

代表的なタスク:

  • クラスタリング (Clustering): データを類似性に基づいて複数のグループ(クラスタ)に分割するタスク。例: 顧客のセグメンテーション。
  • 次元削減 (Dimensionality Reduction): 高次元のデータを、情報損失を最小限に抑えつつ、より低次元の表現に変換するタスク。例: 特徴量の可視化、ノイズ除去。

参考

  • 手塚 太郎, 『しくみがわかるベイズ統計と機械学習』, 講談社 (2017)