ホーム > 調査・研究 > コラム・レポート > 学びの考察 > テキストマイニングによる「発見」のすゝめ

テキストマイニングによる「発見」のすゝめ

リサーチコンサルティンググループ
阪口 慧

目次

はじめに

テキストマイニングという言葉に対しどのようなイメージをお持ちですか?テキスト、つまり、言葉というデータに対する分析の手法の一つという印象をお持ちの方は多いかもしれません。データマイニングという言葉に馴染みがある方は、膨大なデータを扱うものかなと思っている人もいるでしょう。

確かに、「膨大なテキストデータをコンパクトにまとめて、文に含まれる要素を可視化すること」はテキストマイニングの根源的な強みです。しかし、その応用範囲はテキストデータの単なるコンパクト化や可視化に留まりません。定量データ、カテゴリーデータ(注1)と組み合わせ、明確な調査目的のもとで正しく調査設計を行うと、別の強みが現れます。

本コラムではテキストマイニングという手法の歴史にも触れながら、テキスト分析の奥深さをお伝えします。

身近なところにテキストマイニングの仕組み

テキストマイニングというと、少し難しいイメージを持つ方がいるかもしれません。難しく考える必要はありません。私達の身近な所でも、テキストマイニングが使われています。テキストマイニングに親しみを感じるためにも、どんな所でどの様に使われているか見てみましょう。

最近、インターネットだけでなく、テレビのニュース番組でも「ホットワード」を取り上げることが多くなっています。ホットワードとは、SNS上でにわかに話題になっている言葉を意味します。この算出には、テキストマイニングの基盤となる仕組みが使われています。具体的には、形態素解析や係り受け解析という手法です。

形態素解析とは、意味を持つ最小の単位(形態素と言います)まで分解することです。例えば「世界遺産登録」という言葉を分解すると、「世界」「遺産」「登録」という3つの語に分解できます。また、あるテキストデータに「作った」「作る」「作り(ます)」の3つが含まれていたとします。この3つの単語は、語形は異なりますが、全て基本形「作る」の活用形です。これらを個別で数えるのではなく、「作る」が3回出現したと解析するのも、形態素解析の重要な機能です。この結果として、単語の出現頻度を集計出来るようになります。

係り受け解析とは、単語と単語の意味の係り受け関係を解析します。例えば「赤い風船」であれば「赤い」という単語の意味は「風船」にかかっています。このような係り受け関係も集計され、「赤い」という単語が使われた9つの文のうち「風船」に係っていた回数は6回だったというように意味の関係に対しても回数が求められ、その意味的関係を数値で推し量ることができます。

このような解析にもとづいてどのような語がどれくらいの頻度で出現したか、ある語と別の語の間には意味的な関係があるかという情報をコンパクトにまとめることがテキストマイニングの大きな強みです。

さて、ホットワードに話を戻します。この検索では、SNS上でつぶやかれているデータを随時計測して、瞬間的につぶやかれた回数が多いものを取り上げています。身近な例で説明すれば、電車の遅延情報です。遅延情報を調べる際に、電車遅延情報発見webサービス「電車遅延なう」(http://feed.fkoji.com/train/) やYahoo!のリアルタイムアプリの「遅延なう」などを頼る人も多いでしょう。ここでも、twitterなどのつぶやき情報を形態素解析した結果が使われています。「京王線が遅れている」「山の手線が止まっているなう。」などのつぶやきを集めて、その回数や係り受けから、今どの路線で遅延・運休が起きているかを探っているのです。

改めて、テキストマイニングの仕組を簡潔に捉えましょう。人が短時間でできないテキストデータの解析(文を単語の単位まで分解し、意味の係り受け関係を解析する等)を一瞬のうちに行い、そこから集計や可視化などをしてくれます。いわば、「テキストデータを瞬間コンパクト化!」という強みを、テキストマイニングは持っています。

ケーススタディ「学問のすゝめ」

次に、テキストマイニングの強みである「テキストデータのコンパクト化」を活かして「発見」する楽しみを感じていただきたいと思います。まずは、次の問題を考えてみましょう。

問:福沢諭吉によって書かれた『学問のすゝめ』の中で、繰り返し使われる言葉(名詞)のうち、最も多い単語は何でしょうか。

『学問のすゝめ』を読んだことのある方であれば、何かの単語が頭に思い浮かぶかもしれません。しかし、それは推測に過ぎません。正確な答えを求めるには、本を読んで単語を一つひとつカウントしなくてはいけませんが、途方もない時間が必要です。そのようなことをしなくても、テキストマイニングを使えば一瞬で答えがわかります。次の表は、実際にテキストマイニングで分析した結果です(注2)。

図1

(表1, 「学問のすゝめ」における頻出名詞)

表1を見てわかる通り、実は文中で最も多く使われている単語は「政府」です。そして「人民」「独立」が続き、4番目にしてようやく「学問」という単語が出てきます。

福沢諭吉は、長く続いた封建制度や儒教に慣れ思考停止に陥った「国民(人民)」に対し、「学問」を通して人として「独立」すること、そして日本という国が近代民主主義国家として「独立」するための「政府」の正しいありかたを説いたのです。少し誇張的かもしれませんが、『学問のすゝめ』の実態は「独立のすゝめ」なのです。

『学問のすゝめ』という題名に対して持つイメージから、内容も学問について書かれているのだろうと思い込んでいた人は少なくないはずです。テキストマイニングの効能の一つとして、テキストデータを解析し集計するといった技術で、人の思い込みをほぐすということも挙げられます。

テキストマイニングの源流

さて、今度はテキストマイニングの源流を探って見ましょう。テキストマイニングの源流は1986年に発表された論文に見ることが出来ます。まだコンピューターでの情報処理や自然言語処理の技術が発達する前のことです。その時代に、言葉と言葉の結びつきに注目することで、新たな発見をしようと試みた研究者がいました。

Don R. Swansonという研究者は、1986年の論文で「未発見の公的知識(Undiscoverd Public Knowledge, 訳語は神門(2006)による)」という概念を提唱しました。この概念は「公にされている(Public)様々な知識の中にある、未発見の(Undiscovered)知識」を指します。この研究で扱われたデータは、医学関係の学術論文でした。アイデアは至ってシンプルです。「AとBに関係がある」、「BとCに関係がある」といった既に公にされた知識から、「AとCには関係がある」という未発見の知識を導き出すというアイデアでした。(図2参照)

図2

(図2, Swansonの関係抽出のモデル: Literature-based discovery(wikipedia)を元に作成)

この部分だけ読むと「簡単な三段論法じゃないか」と思うかもしれません。しかし、現代の科学や医学は非常に専門性が高く、一つの科学分野の中でも細分化が進んでいます。それぞれの専門の境界をまたいでしまったら、簡単な三段論法にさえ気付くことが難しいのです。

Swanson氏は、論文中に出てくる述語関係を専門分野の区別をせずに分析しました。その結果、魚油とレイノー症候群の関係、マグネシウム欠乏症と偏頭痛の関係などを、一切科学的な実験を行うことなく見つけたのです。発見された関係は実際に科学的な実験によって、医学的にも有意な関係であることが証明されています。現在このアイデアはシステム化され、医学関係の論文データベースに対する関連論文を自動的に発見するArrowsmith(http://arrowsmith.psych.uic.edu/)という仕組みとして活用されています。

このように、テキストマイニングの源流を探ると、テキストマイニングの奥深さの一つが改めて分かります。既に公にされている知識、あるいは手に持っているテキストデータから、今までに気付かなかった知識を得ることはまさに、テキストマイニングの奥深さの一つです。Swanson氏の「未発見の公的知識」という考え方は、テキストデータの分析においては特に力を発揮します。テキストマイニングの姿勢の根幹に「未発見の知識を得る」というものがあることを改めて意識すると、テキストマイニングは単なるテキストデータのコンパクト化、可視化ツールに留まらない、「発見の為の手法」というイメージをお持ちいただけるかもしれません。

テキストマイニングを用いた「発見」:最近の事例から

最後に、最近のテキストマイニングを用いた研究成果や、発見の事例を紹介します。

医学分野では、より臨床に近い範囲での分析が行われました。岡部ほか(2006)の研究では、看護師のインシデントレポート(ヒヤリ・ハット事例集)に書かれた自由記述に対しテキストマイニングがなされました。

この分析では、自由記述欄以外のチェック項目との関連付けが行われました。チェック項目には発生部署や、キーワード{与薬注射・点滴、チューブ・カテーテル類、機器一般}などを記載します。また、自由記述欄も具体的内容、発生した要因と分けて記載されていた点を活かし、これらの情報を階層的に可視化(注3)しています。その結果、例えば「機器一般」というキーワードに着目する場合、ヒヤリ・ハットの事例は「術後」に起きていて、「残量」「シリンジポンプ」に関するものが多いという事実が観察できます。このように、自由記述のデータと、それ以外のデータを組み合わせることで、分析内容・発見の精度が高まります。

また、これは弊社で行った分析例ですが、優秀な社員と、もう一頑張り必要な社員の違いを探るためにテキストマイニングを用いました。この分析で用いたデータは日報です。その日報とともに、業績や上司からの評価などの情報を加えて分析しました。調査の結果、優秀な社員とそうでない社員との間には明確な違いがあることが明らかになりました。具体的な例を挙げると、優秀な社員の方は営業の外回り時にどのように先方とコミュニケーションを図り、どういった情報を引き出しているか、また着目しているポイントはどのようなものかということがわかりました。また、単純な例では、日報の情報量、記入された文字量に大きな差があり、優秀な社員ほど記入量が多いという傾向が導き出されました。結果的に、優秀な社員の暗黙知を再発見し形式化に成功し、全体共有を進めて社員全員のレベルを底上げする第一歩となりました。この調査・分析が成功した秘訣は、①「未発見の知識を得よう」という姿勢のもと、②調査設計・調査目的を明確にして、③自由記述のデータ以外のデータも併せて分析したということに集約されます。もちろん、このような結果が導き出せないことも多くあります。既に知り尽くされたことしか出てこないことや、そもそもテキストマイニングを行うのに十分な情報量でないというケースも多くあります。しかし、得るものが大きい分析は、必ず上記の3点を満たしています。

おわりに:テキストマイニングを使った用いた「発見」のすすめ

ここまで、テキストマイニングの仕組みや、歴史、そして最近の事例に触れてきました。最後に改めてテキストマイニングとは何か考えてみましょう。テキストマイニングは「膨大なテキストデータをコンパクトにまとめて、文に含まれる要素を可視化する」という強みを持った分析手法です。しかし、テキストマイニングの出発点は単なるデータのコンパクト化ではなく、未発見の知識を導き出すことにありました。テキストデータに対する機械的で高速な処理は、「発見」という志向があって初めてその魅力を最大限に発揮します。そして分析を成功させるためには調査設計・調査目的を明確にし、自由記述以外のデータも併せて分析に投入することが肝要です。

本コラムによって皆様がテキストマイニングに対して少しでも興味を持って頂けたなら、この上ない幸せです。最後に、本コラムをお読み下さった皆様にお尋ねします。皆様のお手元に「未発見の知識」であふれたデータはありませんか?

(注1)定量データは体重、身長、個数の様に、数値で表わされるようなものを指します。一方、カテゴリーデータとは男性、女性、哺乳類、爬虫類の様に数値で示すことの出来ない情報を指します。

(注2)サ変名詞に限定した場合の分析結果です。

(注3)単純に形態素解析や係り受け解析の情報だけを用いた場合、[単語]-[単語]だけの関係を観察することになり、状況別、部署別、医療機器別等に頻出単語を比較する、記述内容を比較するということができません。階層的な処理というのは[単語]-[単語]-[機器の種類]、[単語]-[単語]-[状況別]など単語以外の情報を合わせて見ることが出来ます。その為、状況別、や機器別などで出現する単語が違うという分析結果が得られるようになります。

(2016.05.31)

<参考文献>

【日本語文献】
岡部貴博, 吉川大弘, 古橋武. (2006). インシデントレポート解析のための多重接続型階層的テキストマイニング手法の提案. 日本知能情報ファジィ学会 ファジィ システム シンポジウム 講演論文集, 22(0), 54-54.
神門典子. (2006). 情報空間からの発見と新たな価値の創成. 知能と情報: 日本知能情報ファジィ学会誌: JOURNAL OF JAPAN SOCIETY FOR FUZZY THEORY AND INTELLIGENT INFORMATICS, 18(5), 667.

【英語文献】
Literature-based discovery. (2015). In Wikipedia, The Free Encyclopedia. Retrieved 01:28, March 22, 2016, from(https://en.wikipedia.org/w/index.php?title=Literaturebased_discovery&oldid=666859024)
Swanson, D. R. (1986). Undiscovered public knowledge. The Library Quarterly, 103-118.
Swanson, D. R., & Smalheiser, N. R. (1996). Undiscovered Public Knowledge: A Ten-Year Update. In KDD (pp. 295-298).

【その他】
電車遅延なう(http://feed.fkoji.com/train/)
福沢諭吉「学問のすゝめ」. 青空文庫 (http://www.aozora.gr.jp/cards/000296/files/47061_29420.html)
Arrowsmith(http://arrowsmith.psych.uic.edu/)

著者プロフィール

kei sakaguchi
阪口慧

株式会社富士ゼロックス総合教育研究所 リサーチコンサルティンググループ

武蔵野大学、明星大学、東京医療保健大学 非常勤講師

1988年生まれ。2014年より当社にてテキストマイニング業務に従事。

ES調査、CS調査における自由回答をはじめ、各種テキストデータの分析を担当。

東京大学大学院 修士課程修了(修士(学術))。

お問い合わせはこちら

お問い合わせ