統計学と機械学習の基本用語

標本: 調査や分析の対象となるデータ群から抽出された個々の要素や観測対象。
観測値: 標本から得られた具体的な数値やデータ。
パラメータ: 確率分布や統計モデルの特性を決定する未知の数値。例えば、正規分布における平均や分散など。
検定: 統計的仮説検定のこと。データに基づいて、ある仮説（例: 2つのグループ間に差があるか）が統計的に正しいかどうかを判断する手法。
推定: 既知のデータから、未知のパラメータや将来の値を推測すること。点推定（単一の値を推測）と区間推定（値の範囲を推測）がある。

統計学の用語

入力データとそれに対応する正解の出力（教師信号）のペアを多数与え、それらの関係性を学習して、未知の入力に対する出力を予測するモデル（識別モデル）を構築する手法です。

代表的なタスク:

分類 (Classification): 入力を、あらかじめ定義された有限個のカテゴリ（クラス）のいずれかに割り当てるタスク。例: スパムメールの識別、画像認識。
回帰 (Regression): 入力から連続的な実数値の出力を予測するタスク。例: 株価予測、住宅価格予測。

正解の出力（教師信号）が与えられないデータから、データ自身の構造やパターンを発見する手法です。データがどのように生成されたかというメカニズム（生成モデル）を学習することが目的となる場合が多いです。

代表的なタスク:

クラスタリング (Clustering): データを類似性に基づいて複数のグループ（クラスタ）に分割するタスク。例: 顧客のセグメンテーション。
次元削減 (Dimensionality Reduction): 高次元のデータを、情報損失を最小限に抑えつつ、より低次元の表現に変換するタスク。例: 特徴量の可視化、ノイズ除去。