テキストマイニング

テキストマイニングとは

テキストマイニングとは、文字列を対象としたデータマイニングのことです。形態素解析などの自然言語解析などの手法が用いられます。自然言語のテキストの蓄積からなるデータを分析し、問題発見や時系列の推移を把握することで、業務や製品に役立つ情報を探し出します。

テキストマイニングには、様々な種類の分析が含まれます。
基本となる形態素解析は、意味を持つ最小の単位である「形態素」に分割することです。テキストを品詞やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べ、それらの出現頻度を分析することで有益な情報を抽出します。

構文解析（係り受け解析）では、品詞を利用して単語同士の修飾と被修飾の関係を抽出します。
センチメント分析は、製品などに関する顧客や消費者の評判(肯定的か否定的か)などの感情を分析することです。
テキストに含まれる単語を、高評価から低評価までランキング化して、どの程度の評価かを知ることができます。共起ネットワーク分析では、様々な要素や要因の間の結びつきを可視化します。

この他にも、テキストマイニングにはクラスター分析や、主成分分析なども含まれます。年齢や性別などのデータから、ユーザー属性を分類することができます。

テキストは文化依存であるため、言語によって形態素分析の手法も異なります。
たとえば、英語であれば単語はスペースで自動的に分割されます。
一方、日本語の場合は”すもももももももものうち”の例から分かるように、n-gram法などを用いて正しい単語単位に前もって分割する必要があります。

ビジネスへの応用において、データマイニングとテキストマイニングの違いは何でしょうか。
前者が顧客個人の購買傾向の分析などを目的にするのに対して、後者は顧客個人の特性よりも、提供側の状態の把握が目的になります。たとえば、テキストマイニングでは、商品の評価や顧客サービスの問題点などを把握できます。
これによって、商品の売れない理由、機会損失を起こしている理由が分かり、適切な対応が可能となります。
分析結果の共有と課題管理が有効活用にとって大切です。

Twitterなどのソーシャルメディアや口コミサイトの書き込みなど、インターネット上にはテキストのビッグデータが膨大に蓄積されています。これらのビッグデータをテキストマイニングで構造化することで、株価や選挙結果などの将来予測に活用できるでしょう。