Excelでの連続変数の離散化
このチュートリアルは、XLSTATを用いてExcel内でさまざまな手法に基づいて連続変数を離散化 することを支援します。
連続変数を離散化するデータセットとこのチュートリアルの目的
データと結果のMS Excelスプレッドシートは、こちらをクリックしてダウンロードできます。このチュートリアルで使用するデータは、患者のリストで、彼らの身長、体重、 BMIに関する情報が含まれます。
この事例では、BMIによって患者を異なるグループに分割することにします。
連続変数の離散化のセットアップ
XLSTAT-Proを起動すると、 XLSTAT / データ準備 / 離散化を選択するか、"データ準備" ツールバー(下図)の対応するボタンをクリックしてください。

適切なボタンをクリックすると、ダイアログ・ボックスが現れます。
Excelシート上のBMI (列 D)に対応するデータを選択します。選択内に変数名 "BMI"を含むので、列ラベル・オプションをチェックします。
行ラベルオプションをチェックし、患者の名前 (列A)を選択してください。
標本をグループ化する際に、複数のオプションがあります:
- 一定幅: 同じ幅のクラスを作成するには、この手法を選んでください。そして、幅の値を入力してください。必要であれば、最初の区間の下限に対応する "最小" をオプション的に指定できます。
- 区間: 同じ幅を持つ任意の数の区間を作成するには、このオプションを使用してください。
- 等頻度: すべてのクラスができるだけ同じ数のオブザベーションを含むようにするには、この手法を選んでください。
- 自動 (フィッシャー): フィッシャーのアルゴリズムを用いてクラスを作成するには、この手法を使用してください。
- 自動 (k-means): k-means アルゴリズムを用いてクラス(または区間)を作成するには、この手法を選んでください。
- 区間 (ユーザー定義): 最初の区間の下限を含む列を選択し、すべての区間の上限を昇順に選択するには、このオプションを選んでください。
- 80-20: 昇順に並んだデータで、系列の最初の80%を含む最初のクラスと、残りの20%を含む2番目のクラスの2つのクラスを作成するには、この手法を使用してください。
- 20-80: 昇順に並んだデータで、系列の最初の20%を含む最初のクラスと、残り80の%を含む2番目のクラスの2つのクラスを作成するには、この手法を使用してください。
- 80-15-5 (ABC): 昇順に並んでデータで、系列の最初の80%を含む最初のクラス、次の15%を含む2番目のクラス、そして残りの5%を含む3番目のクラスを作成するには、この手法を使用してください。この手法は、しばしば"ABC 分類"と呼ばれます。
- 5-15-80:昇順に並んでデータで、系列の最初の5%を含む最初のクラス、次の15%を含む2番目のクラス、そして残りの80%を含む3番目のクラスを作成するには、この手法を使用してください。
我々は、区間(ユーザー定義)オプションを選択して、Microsoft Excel シートで XLSTATのために定義された境界を使用します。

計算する結果を選択するために、出力タブに行ってください。重心(セントロイド)、クラスごとの結果、オブジェクトごとの結果を選択してください。

チャートタブに行って、度数バーのヒストグラムを選択してください。

準備ができたらOK ボタンをクリックしてください。
連続変数の離散化の結果
結果が "離散化"という名前の新しいシートに表示されています。
最初の結果は、ヒストグラムです。バーの大きさがクラスのサイズに対応することに注意してください。
次は、区間の記述統計量の表です。 患者のほとんど (10) が、正常な体重に対応する3番目のクラスにいます。

そして、各クラスの中心に等しくはないかもしれないクラス・セントロイドがあります。
最後に、BMIクラスへの患者の分類があります。

お問合わせは、マインドウエア総研へ。
Was this article useful?
- Yes
- No