テキストマイニング入門 – KH Coderでできること、分析手順を徹底解説

みなさん、こんにちは。

以前、テキストマイニングについて簡単にお話ししました。

LLMで着想を得て、テキストマイニングで立証する | 新しい文章解析のアプローチ

【Linux】DockerでKH Coderを動かす！Bodhi Linux 7.0.0 & Ubuntu 22.04での導入ガイド

今回はそのさらに一歩深い世界、テキストマイニングの意義や目的、具体的な分析手順に加え、テキストマイニングツール「KH Coder」を使った分析方法まで、分かりやすく解説していきます。

「文章データってどうやって分析するの？」と疑問に思っていた方や、「KH Coderって聞いたことはあるけど、どう使えばいいの？」と思っていた方は、ぜひ最後までお読みください！

1. テキストマイニングって何？その意義と目的

テキストマイニングは、定型化されていない文章データから、自然言語処理という技術を使って有益な情報を引き出す技術のことです。「計量テキスト分析」とも呼ばれ、これまで難しかった「文章」の定量的な分析を可能にします。

なぜテキストマイニングが必要なのか？

テキストマイニングの主な意義は、大量の文章データに対する深い理解と分析の信頼性向上にあります。

全体像の把握
- 膨大な報告書やアンケートの自由記述を、分析者がすべて読むのは大変ですよね。テキストマイニングを使えば、データ全体を網羅的に把握できます。
信頼性の向上
- 特定の都合の良い部分だけを切り取って分析したわけではないと、客観的に示すことができます。これにより、分析結果の信頼性がグッと高まります。
量的・質的分析の循環
- 単に単語の出現頻度を数えるだけでなく、その結果から「なぜこの単語が頻繁に出てくるんだろう？」と原文を読み解くことで、量的な分析と質的な分析を循環させながら、データの核心に迫ることができます。

テキストマイニングでどんなことができる？

テキストマイニングは、ビジネスや研究など、さまざまなシーンで活用されています。

大量の文書内容の把握
- 顧客からの問い合わせメールや、日報、会議の議事録など、膨大な文書全体の傾向を掴むことができます。
文書間の特徴比較
- 複数の製品レビューや競合の資料を比較し、それぞれの特徴や強み・弱みを明らかにします。
意見・評価の分析
- 質問紙調査の自由記述欄や、SNS、口コミサイトの投稿から、顧客が商品やサービスについてどう感じているかを深く分析できます。

2. テキストマイニングの基本的な分析手順

テキストマイニングの分析は、以下のステップで進めていきます。

データ準備
- 分析したいテキストデータ（CSV、Excel、テキストファイルなど）を用意します。
前処理
- コンピュータが文章を理解できるように、「形態素解析」という技術を使って、文章を単語やフレーズに分解していきます。
分析・可視化
- 分解した単語の出現頻度を集計したり、単語同士の関連性を分析したりします。共起ネットワークやクラスター分析といった手法で、分析結果を視覚的にわかりやすく表現します。
解釈と推論
- 可視化された図表をじっくりと見て、「ここから何が言えるだろう？」と仮説を立てていきます。この時、必ず原文に戻って、単語がどのような文脈で使われているかを確認するのが、良い分析のポイントです。
調整と再分析
- 分析結果を見て、必要に応じて調整します。例えば、「新型コロナウイルス」を一つの単語として扱ったり、分析に不要な「人」や「日」といった単語を除外したりします。

良い分析を行うためには、「どのような単語を一つのグループとして扱うか（コーディング）」「得られた図表のどこに注目すべきか」「その情報から何を推論するか」といった、分析者の知識や洞察力が重要になります。

3. 分析ツール「KH Coder」を使ってみよう！

ここからは、テキストマイニングの強力なツールであるKH Coderについてご紹介します。KH Coderは、立命館大学の樋口耕一教授が開発したテキスト分析ソフトウェアです。無料で利用できるStarting Editionと有料となりますがフル機能が使えるBase Editionがあります。詳細はこちらをご参照ください。

KH Coderがすごい理由

視覚的な分析結果
- 抽出された単語のリストや、単語同士のつながりを図で示す共起ネットワークなど、分析結果が視覚的にわかりやすいのが特徴です。
探索的・仮説検証的分析
- データの全体像を把握する「探索的な分析」から、「この仮説は正しいか？」を検証する「仮説検証的な分析」まで、幅広い分析に対応しています。
量的・質的分析の連携
- 集計や解析を行いながら、いつでも原文に戻って文脈を確認できるので、量的分析と質的分析をスムーズに循環させることができます。

KH Coderを使った分析手順

KH Coderでの分析は、大きく2つの段階で進めます。

段階1：自動処理でデータの様子を探る

まず、KH Coderの自動機能を使って、データの全体像を掴んでいきます。

データ読み込み
- 新規プロジェクトを作成し、分析したいテキストファイルを読み込みます。
前処理の実行
- 「前処理」メニューから実行するだけで、形態素解析などが自動で行われます。
全体像の把握
- 頻出語リストでどんな単語が多く使われているかを確認したり、共起ネットワークで単語同士の結びつきを視覚的に把握したりします。

段階2：コーディングで分析をさらに深める

次に、分析者自身が「語」よりも大きな「コンセプト」に着目し、ルールを作成して分析を深めます。

コーディングルールの作成
- 例えば、「先生」「親」「興味」といった、いくつかの単語をひとまとめにして「教育への関心」といったコンセプトを定義します。
コーディングの実行
- 作成したルールを適用し、コンセプトごとの出現頻度などを集計します。
より深い分析
- コーディング結果をもとに、再度共起ネットワークを作成したり、性別や年代といった外部変数と組み合わせてクロス集計を行うことで、さらに踏み込んだ分析が可能になります。

まずは分析を始めてみることで、思いもよらない仮説が浮かぶこともあります。難しく考えずに、まずはKH Coderを触ってみてはいかがでしょうか？

まとめ

ここまで、テキストマイニングの基本的な考え方から、無料ツールKH Coderを使った具体的な分析手順まで、幅広く解説してきました。

おさらいすると、テキストマイニングは単なる単語の集計ではなく、文章データから意味のある情報を引き出し、分析の信頼性を高めるための強力な手段です。そして、KH Coderは、その複雑な分析プロセスを視覚的に、そして量的な分析と質的な分析を循環させながら進められる、非常に優れたツールです。

まずは、身近なアンケートの自由記述や、社内で溜まっている日報など、小さなデータからでもいいので、KH Coderを使って分析を始めてみてください。きっと、これまで見過ごしていた新しい発見があるはずです。

もし、「自社のアンケートや問い合わせデータを分析して業務改善に役立てたいけど、やり方がわからない」「どのように分析を始めたら良いか、具体的なアドバイスが欲しい」といったお悩みがあれば、ぜひ一度ご相談ください。専門家として、皆様の課題解決をサポートさせていただきます。

ご相談はこちらからどうぞ。

それでは、よいテキストマイニングライフを！

月	火	水	木	金	土	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31