メインコンテンツに移動

Excelでの特徴抽出チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてExcelå† ã§ãƒ†ã‚­ã‚¹ãƒˆæ–‡æ›¸ã®é›†ã¾ã‚Šã‹ã‚‰ç‰¹å¾´ãƒ™ã‚¯ãƒˆãƒ«ã‚’æŠ½å‡ºã™ã‚‹Â æ–¹æ³•ã‚’èª¬æ˜Žã—ã¾ã™ã€‚Â

ç‰¹å¾´æŠ½å‡ºã¯è†¨å¤§ãªãƒ†ã‚­ã‚¹ãƒˆãƒ»ãƒ‡ãƒ¼ã‚¿ã‚’èª¬æ˜Žã™ã‚‹ã®ã«å¿ è¦ãªãƒªã‚½ãƒ¼ã‚¹ã‚’å‰Šæ¸›ã™ã‚‹ãŸã‚ã«ä½¿ç”¨ã•ã‚Œã¾ã™ã€‚ これは、十分な正確さでデータを説明しつつ、これらの問題を回避する変数の組み合わせを構築する手法の総称です。 æŠ½å‡ºã•ã‚Œã‚‹ç‰¹å¾´ã¯ã€æ–‡æ›¸å† ã§ã®å„ãƒ¯ãƒ¼ãƒ‰ã®ç™ºç”Ÿé »åº¦ãŒåˆ†é¡žå™¨ã®ãƒˆãƒ¬ãƒ¼ãƒ‹ãƒ³ã‚°ã®ãŸã‚ã®ç‰¹å¾´ã¨ã—ã¦ä½¿ç”¨ã•ã‚Œã‚‹æ–‡æ›¸åˆ†é¡žã®æ‰‹æ³•ã§ã‚ˆãä½¿ç”¨ã•ã‚Œã¾ã™ã€‚

Excelで特徴抽出を実行するデータセット

データと結果のExcelシートは、次のボタンをクリックしてダウンロードできます: データをダウンロード このチュートリアルでは、英語で書かれた4000æœ¬ã®æ˜ ç”»è©•è«–ã‹ã‚‰ãªã‚‹Internet Movie Database (IMBD) からのデータを使用します。

XLSTATと用いてExcelで特徴抽出をセットアップ

XLSTATを起動すると、 XLSTAT / 高度な機能 / テキスト・マイニング / 特徴抽出 コマンド(下図)を選択してください。 ボタンをクリックすると、特徴抽出のダイアログ・ボックスが現れます。

**文書ファイルオプション(ファイル・インポート)またはワークシート**ãƒ•ã‚£ãƒ¼ãƒ«ãƒ‰ï¼ˆã‚»ãƒ«ç¯„å›²é¸æŠžï¼‰ã®ã©ã¡ã‚‰ã§ã‚‚ä½¿ç”¨ã—ã¦ãƒ‡ãƒ¼ã‚¿ã‚’é¸æŠžã§ãã¾ã™ã€‚ãƒ‡ãƒ¼ã‚¿ã®æœ€åˆã®åˆ—ã«æ–‡æ›¸åãŒå ¥ã£ã¦ã„ã‚‹ã®ã§**文書ラベル**ã‚ªãƒ—ã‚·ãƒ§ãƒ³ãŒæœ‰åŠ¹ã«ãªã£ã¦ã„ã¾ã™ã€‚Â Â Â ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚¿ãƒ–ã§ã¯ã€å‰å‡¦ç†ã‚µãƒ–ãƒ»ãƒ¡ãƒ‹ãƒ¥ãƒ¼å† ã§ã€ã‚¹ãƒˆãƒƒãƒ—ãƒ¯ãƒ¼ãƒ‰ãƒ»ãƒªã‚¹ãƒˆã®é™¤å¤–ï¼ˆè‹±èªžï¼‰ã€å¥èª­ç‚¹ãŠã‚ˆã³æ•°å­—ã®å‰Šé™¤ã‚’é¸ã³ã¾ã™ã€‚Â

ãƒ¯ãƒ¼ãƒ‰ã‚’ãã‚Œã‚‰ã®å ±é€šã®èªžå¹¹ã«å‰Šæ¸›ï¼ˆãŸã¨ãˆã°ã€æ¤œç´¢èªž"love" - "loving" - "loved" - "lovely"ã¯èªžæ ¹"lov"に削減)するために語幹抽出(英語)からテキスト正規化 が実行されます。 ã‚ªãƒ—ã‚·ãƒ§ãƒ³ã‚¿ãƒ–ã§ã¯ã€ä¸­é–“å½¢å¼ã‚µãƒ–ãƒ»ãƒ¡ãƒ‹ãƒ¥ãƒ¼å† ã§ã€æ–‡æ›¸-用語行列レベルでフィルタリングを適用するために、複数のオプションが使用されます。

我〠は、スパースな用語を除去オプション0.95 (最大で95%ã®ã‚¹ãƒ‘ãƒ¼ã‚¹æ€§ï¼‰ã®ã‚¹ãƒ‘ãƒ¼ã‚¹æ€§ã—ãã„å€¤ã‚’é©ç”¨ã—ã€ã—ãŸãŒã£ã¦Â ã€å­˜åœ¨ã®æ¯”çŽ‡ãŒå ¨ä½“ã®æ–‡æ›¸ï¼ˆãƒ¬ãƒ“ãƒ¥ãƒ¼ï¼‰ã®5ï¼ ã‚ˆã‚Šã‚‚ä½Žã„ç”¨èªžã‚’å‰Šé™¤ã—ã¾ã™ã€‚

å ¨ä½“ã®æ–‡æ›¸ï¼ˆè©•è«–ï¼‰ã§ç™ºç”ŸãŒ2回よりも少ない用語をスキップするために、2 ã®æœ€å°é »åº¦ãŒé¸ã°ã‚Œã¦ã„ã¾ã™ã€‚ **出力**タブでは、XLSTAT結果シートに表示するために、**文書-用語行列**オプションが有効にされてています。

**文書-用語行列をエクスポート** というもう1つのオプション(我〠の事例では選択されていない)は、文書-用語行列をカンマ区切り(CSV)形式でエクスポートするフォルダ・パスを指定できます。

このオプションは、行列の中の用語の数がExcelã§çµæžœã®ã‚·ãƒ¼ãƒˆã«è¡¨ç¤ºã§ãã‚‹åˆ—æ•°ã‚’è¶ ãˆã‚‹ã¨æœ‰ç”¨ã«ãªã‚Šã¾ã™ã€‚ OKをクリックすると文書-用語行列の計算が始まります。

Was this article useful?

  • Yes
  • No