PCA/主成分分析について｜ざいつ内科クリニック｜山口市小郡の一般内科、血液内科、アレルギー科

PCA/主成分分析について

主成分分析の計算法と考え方主成分分析（PCA）は、統計解析や機械学習で広く使われる手法で、多次元データをより理解しやすい形に変換する方法です。その目的は、データの分散を最大限に保持しながら、次元を削減すること。主成分分析の考え方分散の最大化: PCAでは、データの最も変動が大きい方向を見つけ、それを「主成分」として定義します。これにより、重要な情報を損なうことなくデータを低次元に変換できます。線形変換: データを新しい座標軸上に再配置し、これらの軸をデータの特徴に基づいて選択します。次元削減: 高次元データを少数の次元に圧縮することで、計算効率を向上し、可視化を容易にします。主成分分析の計算法データの中心化: データから平均を引いて、各次元の平均を0にします。これにより、データが原点を中心に対称になります。共分散行列の計算: 各変数間の共分散を計算し、共分散行列を作成します。この行列は、データの分散や相関を示します。固有値と固有ベクトルの計算: 共分散行列の固有値と対応する固有ベクトルを計算します。固有値は、各主成分の重要度を示し、固有ベクトルは各主成分の方向を示します。主成分の選択: 固有値の大きさに基づいて主成分を選択し、最も情報を含む主成分に基づいてデータを変換します。データの変換: 選択された主成分を用いて元のデータを新しい座標系に変換します。主成分分析の例例えば、2つの変数（X, Y）のデータがある場合、PCAを適用すると、データの分布を最も説明する方向（第一主成分）を見つけ、その次に重要な方向（第二主成分）を見つけます。実際にやってみると、数学やプログラムの理解が深まります！PythonのライブラリであるNumPyやscikit-learnを使えば、簡単にPCAを実装することができます、Pythonを使った主成分分析（PCA）の基本的なコード例です。この例では、scikit-learnライブラリを使用して、簡単にPCAを実装しています。 python import numpy as np from sklearn.decomposition import PCA from sklearn.datasets import load_iris # データの準備（ここではIrisデータセットを使用） data = load_iris() X = data.data # 特徴量 y = data.target # ラベル # PCAの適用（主成分数を2に削減） pca = PCA(n_components=2) X_pca = pca.fit_transform(X) # 結果の表示 print("元のデータの形状: ", X.shape) print("PCA適用後のデータの形状: ", X_pca.shape) # 主成分を可視化 import matplotlib.pyplot as plt plt.figure(figsize=(8, 6)) for label, marker, color in zip(np.unique(y), ('o', 's', 'D'), ('red', 'green', 'blue')): plt.scatter(X_pca[y == label, 0], X_pca[y == label, 1], label=f"Class {label}", marker=marker, color=color) plt.title("PCAによる次元削減後のデータ") plt.xlabel("第一主成分") plt.ylabel("第二主成分") plt.legend() plt.grid() plt.show() 説明: データの準備: この例では、Irisデータセットを使用して4次元の特徴量を持つデータをロードしています。 PCAの実行: PCA(n_components=2)とすることで、データを2次元（第一主成分と第二主成分）に削減します。可視化: Matplotlibを使用して、次元削減後のデータを2次元平面でプロットし、クラスごとに色分けしています。このコードを実行すれば、Irisデータセットの特徴量がどのように主成分空間で分離されるかを視覚的に確認することができます。固有ベクトルの統計学的意味を理解するには、まずそれがデータ解析や主成分分析（PCA）においてどのように利用されるかを考えると分かりやすいです。以下に説明します。固有ベクトルの役割固有ベクトルは、共分散行列や相関行列などの線形代数的な対象の「特定の方向」を表します。その意味は、データがどの方向にわたって最も変動（分散）するのかを示すことです。主成分分析における固有ベクトルの意味情報の主な方向性を表す: PCAでは、データの分散が最大となる方向を探し出します。この方向が固有ベクトルとして表されます。例えば、第一固有ベクトルはデータの分散が最大の方向を示し、第二固有ベクトルは第一固有ベクトルに垂直な形で、次に重要な分散の方向を表します。次元削減の座標軸として機能する: 固有ベクトルは、新しい座標軸（主成分）として機能します。元のデータがこれらの固有ベクトルに投影されることで、新たな次元空間にデータを簡潔に表現できます。固有ベクトルの統計学的解釈関連性と重要性の評価: 固有ベクトルの各要素（特徴量に対応）は、その特徴量がその主成分にどの程度寄与しているかを示します。これにより、どの変数がデータの変動に大きな影響を与えているかを特定できます。方向と分布の把握: 固有ベクトルが指し示す方向は、データがどのように分布しているかを理解するための鍵となります。この方向性に基づいてデータの構造やパターンが解析されます。分散の影響範囲の理解: 固有ベクトルは、固有値とセットで解釈されます。固有値は、その固有ベクトルに対応する分散の大きさを表し、統計学的な「重要度」を示します。具体例たとえば、PCAを用いて2次元データを分析した場合：固有ベクトル 1=[0.9,0.1] が第一主成分であれば、この方向に沿ってデータの分散が最大であることを意味します。 2=[−0.1,0.9] が第二主成分であれば、それは次に大きな分散の方向を示します。結局のところ、固有ベクトルはデータ内の「重要な構造」を明らかにするための道具であり、統計学ではそれが変動や相関のパターンを捉えるために使用されます

写真を開く

相関行列は、複数の変数間の相関関係をまとめて表した行列です。各変数同士の相関係数を計算し、それを行列として整理したものといえます。相関係数は、変数間の線形関係の強さと方向を示す指標で、値は -1 から 1 の範囲になります。

相関係数の範囲と意味：

+1: 完全な正の線形関係
0: 線形関係なし
-1: 完全な負の線形関係

相関行列の構成：

相関行列は、例えば3つの変数 X1X_1, X2X_2, X3X_3 を持つ場合、以下のようになります：

相関行列=[1Corr(X1,X2)Corr(X1,X3)Corr(X2,X1)1Corr(X2,X3)Corr(X3,X1)Corr(X3,X2)1]\text{相関行列} = \begin{bmatrix} 1 & \text{Corr}(X_1, X_2) & \text{Corr}(X_1, X_3) \\ \text{Corr}(X_2, X_1) & 1 & \text{Corr}(X_2, X_3) \\ \text{Corr}(X_3, X_1) & \text{Corr}(X_3, X_2) & 1 \\ \end{bmatrix}

ここで、行列の対角要素はすべて1になります（各変数と自身の相関は常に1だからです）。

用途：

相関行列は、以下のような場面で役立ちます：

データ解析: 変数間の関連性を理解し、モデル構築や予測に活用する。
ポートフォリオ理論: 金融の分野で、資産間のリスク分散を検討するために利用。
機械学習: 特徴量間の冗長性を評価し、特徴選択を行う際に活用。

2025年4月4日 | カテゴリー：基礎知識/物理学、統計学、有機化学、数学、英語 |