自然言語処理とは,簡単に言うと「人間の言葉(自然言語)を理解できるコンピュータをつくる」ことを目指す研究です.
2007年1月に「観光立国推進基本法」が施行され,2008年10月には国土交通省に「観光庁」が設置されるなど,日本では今,「観光」を基幹産業と位置付けた多様な取り組みが,国をはじめとして,さまざまな自治体レベルでも積極的に推進されています.観光を支援する媒体としては,ポータルサイトや旅行雑誌などの観光情報データベースが既にいくつか作成されていますが,これらは人手で構築されたものであり,作成に多大なコストを要します.そこで本研究室では,ブログなどのWeb上のテキストから自動的に観光情報を抽出することで,低コストでのデータベース生成を目指しています.
自然言語処理技術と画像認識技術を用いて旅行ブログを地図上にマッピングし、旅行者の行動を様々な観点から分析できるシステムの開発に取り組んでいます。
YouTube動画 on Leaflet
YouTubeから収集した旅行関連動画約150,000件をLeafletで地図上にマッピングしています。
旅行ブログの位置情報を特定し、Google Earth上にマッピングしたシステムです。
Web上のニュースサイトから自動抽出したイベント情報を検索することができます。
地図上の複数の旅行ブログを要約するシステムを開発しています。
この他,旅行経路や旅行記(旅行ブログ)など,観光情報を様々な観点から検索できるシステムを開発・公開しています。
2015〜2016年度は総務省 戦略的情報通信研究開発推進事業(SCOPE)に採択されました。研究成果をこちらで公開しています。
インターネット上の学術論文データを自動的に集めた論文データベース,PRESRIを作っています.このシステムは,日本語と英語の論文をウェブブラウザから検索することができます.このシステムを通じて,情報検索,情報抽出,専門用語辞書の構築,専門用語の翻訳,自動要約,テキスト情報の可視化に関する研究を行っています.また,2004年7月から2007年6月まで,新エネルギー・産業技術総合開発機構(NEDO)の産業技術研究助成事業の支援を受けて,広島市立大学自然言語処理学講座,東京工業大学奥村研究室,IRD国際特許事務所,ほか3社と共同で,PRESRIのデータと特許データベースを統合した検索環境および動向分析ツールの開発に取り組みました.このシステムでは,翻訳技術と検索技術を組み合わせ,入力されたキーワードとは異なる言語で書かれた論文や特許を検索したり,論文用語を特許用語に自動変換 (例えば「フロッピーディスク」を「ディスク状記録媒体」に変換) して,特許と論文を横断的に検索したりすることができます.
この研究成果をまとめた論文が,2010年度情報処理学会論文誌データベース優秀論文賞を受賞致しました.
詳しくは「特許、論文データベースを統合した検索環境および動向分析ツールの構築」をご覧下さい.
この他,以下の研究を実施しています.
長い文章をコンピュータで簡潔にまとめる,いわゆるテキスト要約という研究は,自然言語処理の中でも最も古い研究分野の一つですが,インターネットの普及とともに,電子化された文書が爆発的に増え続けている今日,たくさんの情報の中から知りたいものを素早く見つけるための技術として,世界的に注目を集めています.
そこで,複数テキスト要約システムの開発,要約結果の可視化表示,要約評価等,自動要約に関する様々な研究に取り組んでいます.2003年には,この分野では初めての日本語で読むことのできる教科書を翻訳しました.
Inderjeet Mani 『自動要約』(奥村 学,難波 英嗣,植田 禎子訳),共立出版,2003. ISBN:4320120736
また,2005年3月にはオーム社から『知の科学 テキスト自動要約』という教科書を出版しました.興味のある方は手にとってみてください.
奥村学,難波英嗣著『知の科学 テキスト自動要約』,(ISBN:4274200426)最近の研究成果は、上述の複数旅行ブログ要約などがあります。