メインコンテンツに移動

Excelでのヒストグラムと分布の適合チュートリアル

このチュートリアルの目的は、Excel内でXLSTATの分布の適合ツールを使用して、ヒストグラム を生成して、ある標本が負の二項分布に従うかどうかを検定することです。この分布は、水環境でのバクテリアの凝集/分散現象を表現するためによく使用されます。

ヒストグラムを作成して分布を適合するデータ

データと結果のExcelシートは、上のリンクでダウンロードできます。

データは、大腸菌による細菌汚染の有無を決定するために、河川からの水の200サンプルが養分つきの培地で培養された実験です。コロニーの数は、72時間の培養後にカウントされています。Bact-Dataの列には、200サンプルのカウントが表示されます。

ヒストグラムを作成するためのダイアログ・ボックスのセットアップ

XLSTATを開いて、XLSTAT / データ可視化 / ヒストグラム コマンドを選択してください(下図参照)。 below).

そして、ダイアログ・ボックスが表示されます。Dataと名付けられたExcelシート上のデータを選択します。 一般タブで、データ・フィールドのB列を選択します。 カウントは離散値なので、離散オプションを有効にします。データ選択の最初の行にサンプルの名前が含まれているため、標本ラベル・オプションは有効なままにしておきます。

OK ボタンをクリックして計算が立ち上がります。そして、新しいシートに結果が表示されます。

ヒストグラムの解釈

シートHistogramの要約統計の表の下にヒストグラムが表示され、その後にヒストグラムの統計が得られる表が続きます。

ヒストグラムでは、最も度数の高い値が0であり、データの20%以上を占めていることがわかります。つまり、5個のサンプルのうち1個以上のサンプルで細菌が発見されていません。また、度数が急速に減少していることにも気づきます。1個のサンプルでは、36個以上のコロニーがカウントされました。

区間の境界を指定してヒストグラムを作成

我々は負の二項分布関数と標本の間の適合を検定したいので(カイ2乗検定は、1個のクラスに少なくとも5個のデータがあることを要求します)、また、バクテリアのカウントの精度が不確かなので、カウントをより大きなクラスにグループ化する必要があるように思われます。この理由から、我々の問題と一致すると思われる境界値のリストを作成しました:0,1,2,3,4,5,10,15,20,40。 新しいクラスの度数が5より大きく、規則的に減少しているかどうかを確認するために、今回はオプション・タブで区間の境界を指定して、新しいヒストグラムを作成します。

OKボタンをクリックすると計算が始まり、新しいヒストグラムが現れます(シート"Histogram1"を参照)。

我々はこの結果に満足なので、標本が負の二項分布に従うかどうかを検定するために、分布の適合ツールを使用することができるようになりました。

分布を適合するためのダイアログ・ボックスの設定

XLSTAT / データ・モデリング / 分布の適合コマンドを選択してください(下図参照)。

そして、分布の適合ダイアログ・ボックスが現れます。Dataという名前のExcelシートを選択してください。

一般タブで、データ・フィールドに列Bを選択してください。我々は XLSTATに負の二項分布関数のパラメータを推定させます。 XLSTATは、負の二項分布の2種類の式を提供します。我々の事例に適応するのは、2番目のものです。

オプション・タブで、 我々の仮定を検定するのに必要なカイ2乗適合度検定を有効にします。我々は上記で定義した境界を使用します。

チャート・タブで以下のオプションを選択します。

## 分布の適合分析の結果の解釈

我々が興味を持つ最初の結果は、負の二項分布(最尤法を用いて適合)のkおよびpパラメータの値と、標本と理論的な平均、分散、歪度、尖度の推定値です。これらの統計量がデータとパラメータから得られるものに近いほど、適合が良好です。ここでは、適合は優れています。注意: 理論平均は kp、分散は kp(p+1) で与えられます。

カイ2乗適合度検定は、経験分布関数と理論的分布関数の間のカイ2乗距離が臨界値を超えているかどうかを検定することができます。観測度数と理論度数の間の視覚的な比較は、次の図で見ることができます。 クラス2, 6, 7については、わずかな違いがあるようです。このわずかな差にもかかわらず、検定のために計算されたp値(0.770)は、我々が選んだ有意水準(0.05)よりも有意に高いです。したがって、カイ二乗検定は、データが負の二項分布に従うという我々の仮説を確認します。 結論として、サンプルが採取された河川における関心のある細菌の存在は、平均値が4.8、分散が33.4の負の二項分布(k=0.823、p=5.921)に従っています。

Was this article useful?

  • Yes
  • No