国内で検索サイトgooを運営するNTTレゾナントが無料で使える「形態素解析」のAPIを公開したとの情報です。
今までは、企業や研究機関が作り上げた同様のソフトウェアが超高額で売られているのみだったのですが、APIという形で公開され、しかも無料で使えるという事で非常に歓迎すべきニュースです。
文章を品詞の単位に分割し、それぞれの言葉がどれに属するのかをコンピュータ的に分類する事なのですが、分かりやすく言うと、文章を言葉に分割し、その言葉の種類によって分類する機能です。
元文の「今日は良い天気です。」を「今日(主語節-名詞)」「は」「良い」「天気」「です」「。」に分解が出来て、それぞれが、「名詞/動詞/形容詞/副詞/接続詞など」に分類されるのです。
ここまで何が可能になるかが、何となく想像できた方、「素晴らしい」です。
例えば、「悲しい私という映画を見て私はその映画に満足した」という文章。人間であれば、文章を書いている「私」=「満足した」が理解できるのですが、コンピュータにはそれが理解できません。
読み取ろうとすると「悲しい私」「私は満足した」の2つの要素を拾ってきて、どちらかで悩んでしまうのです。
今回の「形態素解析API」を使う事で、「悲しい私」は名詞と判断され、主語「私」の感情は、形容詞「満足した」と、判別できるようになるのです。
今までの単なる、言葉の検索による内容の推測から、一歩進んだ「感情の推測」が出来るプログラムへと進化させる原動力なのです。