統計学の用語
- 標本: 調査や分析の対象となるデータ群から抽出された個々の要素や観測対象。
- 観測値: 標本から得られた具体的な数値やデータ。
- パラメータ: 確率分布や統計モデルの特性を決定する未知の数値。例えば、正規分布における平均や分散など。
- 検定: 統計的仮説検定のこと。データに基づいて、ある仮説(例: 2つのグループ間に差があるか)が統計的に正しいかどうかを判断する手法。
- 推定: 既知のデータから、未知のパラメータや将来の値を推測すること。点推定(単一の値を推測)と区間推定(値の範囲を推測)がある。
機械学習の用語
- 学習・訓練 (Learning/Training): 機械がデータからパターンや規則性を自動的に見つけ出し、モデルを構築するプロセス。
- タスク (Task): 機械学習によって解決しようとする具体的な問題や目標。
教師あり学習 (Supervised Learning)
入力データとそれに対応する正解の出力(教師信号)のペアを多数与え、それらの関係性を学習して、未知の入力に対する出力を予測するモデル(識別モデル)を構築する手法です。
代表的なタスク:
- 分類 (Classification): 入力を、あらかじめ定義された有限個のカテゴリ(クラス)のいずれかに割り当てるタスク。例: スパムメールの識別、画像認識。
- 回帰 (Regression): 入力から連続的な実数値の出力を予測するタスク。例: 株価予測、住宅価格予測。
教師なし学習 (Unsupervised Learning)
正解の出力(教師信号)が与えられないデータから、データ自身の構造やパターンを発見する手法です。データがどのように生成されたかというメカニズム(生成モデル)を学習することが目的となる場合が多いです。
代表的なタスク:
- クラスタリング (Clustering): データを類似性に基づいて複数のグループ(クラスタ)に分割するタスク。例: 顧客のセグメンテーション。
- 次元削減 (Dimensionality Reduction): 高次元のデータを、情報損失を最小限に抑えつつ、より低次元の表現に変換するタスク。例: 特徴量の可視化、ノイズ除去。
参考
- 手塚 太郎, 『しくみがわかるベイズ統計と機械学習』, 講談社 (2017)