メインコンテンツに移動

Excelでのピアソン相関係数チュートリアル

このチュートリアルは、XLSTATを用いてExcelでピアソン(Pearson)ç›¸é–¢ä¿‚æ•°Â ã‚’è¨ˆç®—ã—ã¦è§£é‡ˆã™ã‚‹ã“ã¨ã‚’æ”¯æ´ã—ã¾ã™ã€‚ã‚ãŸãŒæŽ¢ã—ã¦ã„ã‚‹çµ±è¨ˆæ©Ÿèƒ½ãŒã“ã‚Œã‹ã©ã†ã‹ã‚ã‹ã‚‰ãªã„å ´åˆã¯ã€ã“ã¡ã‚‰ã®ã‚¬ã‚¤ãƒ‰ã‚’ãƒã‚§ãƒƒã‚¯ã—ã¦ã¿ã¦ãã ã•ã„ã€‚

ピアソン相関係数を計算するデータセット

データと結果のExcelシートは、以下のリンクをクロックしてダウンロードできます: データをダウンロード

このデータは、オンライン・ショップの顧客の標本を表します。行が顧客で列は彼らが費やした金額とその他の特性(たとえば、靴のサイズ、体重...)です。

このチュートリアルの目的

ここでのゴールは、オンライン・ストアで費やした金額とさまざまな属性との間の相関を計算することです。相関係数は、2ã¤ã®é‡çš„å¤‰æ•°ã®é–“ã®æ­£ã¾ãŸã¯è² ã®é–¢ä¿‚æ€§ã®å¼·ã•ã‚’è¡¨ã—ã¾ã™ã€‚æˆ‘ã€ ã®ãƒ‡ãƒ¼ã‚¿ã¯ã€é€£ç¶šå¤‰æ•°ã§æ§‹æˆã•ã‚Œã¦ã„ã‚‹ã®ã§ã€æˆ‘ã€ ã¯ãƒ”ã‚¢ã‚½ãƒ³ç›¸é–¢ä¿‚æ•°ã‚’ä½¿ç”¨ã—ã¾ã™ã€‚æˆ‘ã€ ã¯ã¾ãŸã€ç›¸é–¢ã®æœ‰æ„åº¦ã®æ¤œå®šã‚‚è¡Œã„ã¾ã™ã€‚

そして、我〠は2種類のグラフを生成します:

  • 相関を視覚的に探索するための**相関マップ**、および
  • 変数のすべての可能な対の間の関係性を可視化するための散布図のマトリックス

 XLSTATでのピアソン相関係数の計算のセットアップ

  1. XLSTATを開くと、下図のように **相関/属性相関の検定 / 相関係数の検定** コマンドを選択してください。  2. **相関係数の検定** ダイアログが現れます。

  1. 一般タブのオブザベーション/量的変数 フィールドで列A-Eを選択します。そして、ドロップダウン・リストから Pearson 相関係数 を選びます。最初の行がヘッダーなので、**変数ラベル** オプションをチェックしたままにしておきます。

  2. 出力タブで、以下のオプションを有効にします。 Set up a Pearson correlation test with XLSTAT, outputs tab 相関係数が0に等しいという帰無仮説を検定するために、各係数についてp値が計算されます。

決定係数は相関係数の2ä¹—ã§ã™ã€‚æ±ºå®šä¿‚æ•°ã¯ã€ç›¸é–¢ãŒè² ã§ã‚ã‚Œæ­£ã§ã‚ã‚Œã€ç›¸é–¢ã®å¼·ã•ã‚’å®šé‡åŒ–ã—ã¾ã™ã€‚**変数をフィルタ**オプションを用いて、我〠は他の変数とのR2の合計が最も高い4つの変数のみを表示するように選択します。

最後に**BAE(Bound Energy Algorithm)**を 用いて、変数を並べ替えします。この手法は、行での類似した値を持つ列がお互いに近づくように正方行列の行と列に並べ替えを適用します。

  1. **チャート**タブで、以下のオプションを有効にします。

Set up a Pearson correlation test with XLSTAT, charts tab

**画像**ã‚¿ãƒ–ã§ã¯ã€ç›¸é–¢è¡Œåˆ—ã‚’ç”»åƒã§è¡¨ç¤ºã™ã‚‹ã‚ˆã†ã«é¸ã¹ã¾ã™ã€‚ã“ã®ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã¯ã€ç›¸é–¢è¡Œåˆ—ãŒãŸãã•ã‚“ã®å¤‰æ•°ã‚’å«ã‚€å ´åˆã«ã€ã©ã®å¤‰æ•°ãŒåŒã˜æ§‹é€ ã‚’æŒã¤ã‹ã‚’ç´ æ—©ãè¦‹ã‚‹ã®ã«å½¹ç«‹ã¡ã¾ã™ã€‚

ピアソン相関係数の結果の解釈

最初の結果は、すべての変数の記述統計です。そして、相関行列が表示されます:

Pearson correlation matrix with XLSTAT 相関係数は-1 から 1 ã®é–“ã®å€¤ã‚’ã¨ã‚Šã¾ã™ã€‚è² å€¤ã¯è² ã®ç›¸é–¢ã€æ­£å€¤ã¯æ­£ã®ç›¸é–¢ã‚’ç¤ºã—ã¾ã™ã€‚ã‚¼ãƒ­ã«è¿‘ã„å€¤ã¯ã€ç›¸é–¢ãŒãªã„ã“ã¨ã‚’åæ˜ ã—ã¾ã™ã€‚

*Invoice amount(請求額)*と属性 Height と Weight の間の相関は、正で強い(1に近い)です。一方、Time spent と Invoice amountÂ ã®é–“ã§è² ã®ç›¸é–¢ãŒè¦³å¯Ÿã•ã‚Œã€ã‚¦ã‚§ãƒ–ã‚µã‚¤ãƒˆã§ã‚ˆã‚Šé•·ã„æ™‚é–“ã‚’ã‹ã‘ã‚‹é¡§å®¢ã¯ã‚ã¾ã‚Šå¤šãã‚’å‡ºè²»ã—ãªã„ã“ã¨ã‚’ç¤ºå”†ã—ã¾ã™ã€‚

すべての係数が0.05有意水準で有意であるとなっています(太字の値)。言い換えると、帰無仮説(係数=0)が真であるにもかかわらず棄却されるリスクが5%よりも小さいです。これは下記のp値の表で確認できます (p値 < 0.0001)。

shoe sizeは相関行列に表示されていないことに注意してください。この変数は、R2の合計がすべての変数のなかで最も低いので除外されました。

P-values for Pearson correlation coefficients with XLSTAT 次のグラフは、相関を青-赤(冷-温)スケールで表示する**相関マップ**です。青色は、-1 に近い相関(たとえば、 Time spent on site 対 Invoice amount) で、赤色は1に近い相関(たとえば Height 対 Invoice amount)です。 Â

Correlation map with XLSTAT 続くグラフは、**プロットの行列**です。各変数でヒストグラムが表示され(対角線)、すべての変数の組み合わせで散布図が表示されます。

æ•£å¸ƒå›³ã®ãƒã‚¤ãƒ³ãƒˆã®è‰²ã¯ã€æ­£ï¼ˆèµ¤ï¼‰ã‹è² ï¼ˆé’ï¼‰ã‹ã‚’æ˜Žã‚‰ã‹ã«ã—ã¾ã™ã€‚æ•£å¸ƒå›³ã§è¦‹ã‚‰ã‚Œã‚‹ãƒ‘ã‚¿ãƒ¼ãƒ³ã¯ã€2つの変数の間の関係性のタイプと同時にその強さを示します。たとえば、 shoe size は、他のすべての属性と関係性が乏しく(行列の最後の列または最後の行)、ゼロに近い相関を含意します。

次にするべきこと: 主成分分析で量的変数を探索

主成分分析 (PCA) は、変数間の関係性をさらに探索し、顧客を変数と関係づけたり、顧客と顧客を関係づけたりすることのできる多変量階s系手法です。Â

Was this article useful?

  • Yes
  • No