教師あり機械学習アルゴリズムの比較
下の2つのグリッドは、XLSTATで利用できる主要な教師あり機械学習アルゴリスムを比較しています。1つのグリッドはクラス分類タスク(質的Y)についてであり、もう1つは回帰タスク(量的Y)についてです。教師あり機械学習の原理についてのショート・イントロダクションは、こちらの記事 をチェックしてください。
複数の基準でアルゴリズムを比較
- それらはオブザベーションよりも変数が多い場合に動作するか?
- それらは予測変数とアウトカムの間の非線形な関係性に簡単に適応するか?
- そのアルゴリズムは説明の目的で使用できるか? 言い換えると、アウトカムへの予測変数の相対的影響度を記述するために使用できるか?
- それらは予測変数の間の交互作用を自動で検出して学習できるか?
- 調整するべき主要なハイパーパラメータはどれか?
クラス分類アルゴリズム
| アルゴリズム | 変数がオブザベーションよりも多い場合に動作するか? | 非線形の状況に適応するか? | 説明の明瞭さ | 予測変数間の交互作用を自動で学習するか? | 主要なハイパーパラメータ | XLSTAT メニュー | 備考 |
|---|---|---|---|---|---|---|---|
| ロジスティック回帰 | No | - | +++ | No | なし | データ・モデリング | 説明の明瞭さの点で良い選択(log-odds係数およびp値を提供) |
| 罰則付き回帰 (Ridge, Lasso, Elastic Net) | Yes | - | ++ | No | lambda、alpha | XLSTAT-R, glmnet | 二項または多項ファミリを選択 |
| 線形判別分析 | No | - | + | No | なし | データ解析 / 判別分析; オプション・タブで共分散行列の等質性を有効にする | |
| 2次判別分析 | No | + | + | No | なし | データ解析 / 判別分析; オプション・タブで共分散行列の等質性を無効にする | |
| 偏最小2乗判別分析 (PLS-DA) | Yes | - | + | No | コンポーネント数 | データ・モデリング | 通常、少ないオブザベーションと多数の変数で使用される(計量化学) |
| 一般化加法モデル(GAM) | No | ++ | + | No | method、extra penaltyの追加 | XLSTAT-R, gam | |
| ナイーブ・ベイズ | Yes | - | - | No | 平滑化パラメータ | 機械学習 | 大規模データセットでの高速計算 |
| サポート・ベクター・マシン (SVM) | Yes | ++ (非線形ではRBF カーネルが推奨される) | - | No | C, カーネルおよび特定カーネルのハイパーパラメータ | 機械学習 | 大規模データセットでの集約的計算 |
| K 近傍法 (KNN) | Yes | ++ | - | No | 近傍の数 | 機械学習 | |
| 分類木 (C&RT) | Yes | ++ | ++ | Yes | CP | 機械学習 | 各ノードで二分割 |
| 分類木 (CHAID) | Yes | ++ | ++ | Yes | CP | 機械学習 | 各ノードで多分割 |
| 分類ランダム・フォレスト | Yes | ++ | + | Yes | CP、mtry | 機械学習 | 分類木に比べてより良い予測性能 |
| ニューラルネットワーク | Yes | ++ | - | Yes | ネットワーク・アーキテクチャ、誤差関数、活性化関数 | XLSTAT-R, neuralnet | 高度な専門知識が必要 |
|
回帰アルゴリズム | | | | | | | |
|---|---|---|---|---|---|---|---|
| アルゴリズム | 変数がオブザベーションよりも多い場合に動作するか? | 非線形の状況に適応するか? | 説明の明瞭さ | 予測変数間の交互作用を自動で学習するか? | 主要なハイパーパラメータ | XLSTAT メニュー | 備考 | |
|---|---|---|---|---|---|---|---|---|
| 線形回帰 | No | - | +++ | No | なし | データ・モデリング | 説明の明瞭さの点で良い選択(スロープ係数およびp値を提供) | |
| 罰則付き回帰 (Ridge, Lasso, Elastic Net) | Yes | - | ++ | No | lambda、 alpha | XLSTAT-R, glmnet | ガウス・ファミリを選択 | |
| Quantile Regression | Yes | - | + | No | なし | データ・モデリング | ||
| 一般化加法モデル(GAM) | No | ++ | + | No | method、extra penaltyの追加 | XLSTAT-R, gam | ||
| 偏最小2乗法 (PLS) | Yes | - | + | No | コンポーネントの数 | データ・モデリング | 通常、少ないオブザベーションと多数の変数で使用される(計量化学) | |
| 主成分回帰 (PCR) | Yes | - | + | No | 標準化変数 | データ・モデリング | ||
| K 近傍法 (KNN) | Yes | ++ | - | No | 近傍の数 | 機械学習 | ||
| 回帰木 (C&RT) | Yes | ++ | ++ | Yes | 最大親サイズ、最小子サイズ、最大深度、CP | 機械学習 | 各ノードで二分割 | |
| 回帰木 (CHAID) | Yes | ++ | ++ | Yes | 最大親サイズ、最小子サイズ、最大深度、CP | 機械学習 | 各ノードで多分割 | |
| ランダム・フォレスト | Yes | ++ | + | Yes | CP, mtry | 機械学習 | 分類木に比べてより良い予測性能 | |
| ニューラルネットワーク | Yes | ++ | - | Yes | ネットワーク・アーキテクチャ、誤差関数、活性化関数 | XLSTAT-R, neuralnet | 高度な専門知識が必要 |
Was this article useful?
- Yes
- No