今回は「連想の情報学」がテーマで
国立情報学研究所 高野 明彦 教授にお話を伺うことが出来ました。
簡単に言うと「検索結果を使って、関連情報を検索できる」
といったところです。
物を思い出す時って、人間もそうですが、何かの連想から生まれることが多いです。
例えば、
「あーあれなんだっけ文防具の」
「なに?」
「針と鉛筆がついてて円を書くあの道具」
「あーえーっと、コンパス!」
「それそれコンパス!」
つまりは、赤といえばりんご、りんごといえば果物みたいな、
連想的に検索が行える仕組みの話です。
それを具現化し実現化したものが「GETA」というエンジン。
これはオープンソースで、ASCII24の関連記事の表示などにも使われているそうです。
では実際に連想検索をどうやって実現するかについて簡単に触れてみます。
★連想検索の実現
1.検索文章(テーマ)からの単語(キーワード)を抽出する。
まず検索する文章(単語じゃなくて文章とする)から、
単語を抽出し出現回数を加味し、重み付け(スコアリング)をします。
2.抽出した単語から、その単語を持った文書を抽出する。
事前にデータとして検索結果となる文書に対して、
同じように重み付け(スコアリング)を行っておき、
それをインデクシングしておきます。
そして先ほど抽出した単語から、インデクシングした文書から
今度は逆引きを行い、単語から文書を引き当てます。
そしてその結果を文書として重み付けを行い、検索結果として
表示します。
3.検索結果の文書と、その文書で使われている単語を表示する。
検索結果の文書を選び出し、その検索結果の文書で使われている単語を
検索結果として表示します。
1.「文書(テーマ)→単語(キーワード)抽出」
2.単語(キーワード)化してある文書(テーマ)を元に
「単語(キーワード)→文書(テーマ)抽出」
3.「文書(テーマ)とその単語(キーワード)を出力」
といった流れになります。
★連想結果がもたらす未来
検索を一度きりのものにするのではなく、関連性の高いものを出力して、
そこからまた積極的な検索活動を行ってもらうというアプローチは面白いですね。
GETAはセマンティックな検索ではなく、あくまでシステマティックな検索に
特化しているエンジンだそうです。
人によって同じ文章から関連を感じるキーワードは異なるので、
あくまでシステマティックに関連データを取得するとの琴。
ただ聞いた感じによると、やはりシステマティックな分類だけでは、
なかなか人間本来求めているデータに関連づかないことも多そうでした。
例えば鎧の甲冑をしらべているのに、その甲冑が胴で出来ていると、
胴から関連して「銅鐸」の関連データが表示されたり。
鎧を欲しがっている人に、銅鐸を進めてもあんまりぱっとしませんよね。
(まあ欲しがる人もいるでしょうが)
やはりシステマティックといえども、より効果的な検索結果を得るには、
ある程度の人による分類が必要だと認識させてくれることでもありました。
膨大なデータに対して人による分類って難しいな(コスト的にも)と感じていたので、
セマンティックな意味づけを行えるもの
つまりはパーソナライズドデータとうまく組み合わせるとかなり昇華させることが
出来そうな印象を受けました。
情報をどう「フィルター」し、関連情報を付記した「アグリゲート」を行い、
どう提案「コンシェルジュ」していくかの取り組みは、
今後まだまだ発展していきそうです。
楽天として扱っていくベクトルとして、かなり面白いテーマでした。
楽天技術研究所は出来てまだ日が浅いですが、かなり良い着眼点で進まれてますね。
今後にもかなり期待できそうです。
★関連サービスのご紹介
今回のテーマに対して、実際に動作しているウェブアプリをいくつか
ご紹介します。
■新書マップ
新書をテーマで検索できるシステム。
検索結果は背表紙になって表示されます。
まず中央にある検索に文章を入れて、検索。
検索結果に現れる黄色い玉が「関連テーマ」。
そのテーマに関連するキーワードが、周りを取り囲む白い玉で表現されます。
黄色い玉にカーソルをあわせると、その黄色い玉に関連した
白い玉が光ります。
白い玉にカーソルを合わせると、その白い玉に関連した
黄色い玉が光ります。
黄色い玉をクリックすると、別ウィンドウで、
そのテーマに関する本の背表紙が表示され、
新書リストを見ることが出来ます。
また興味のある玉を2秒くらいクリックしていると赤くひかり、
選択状態に出来ます。
繰り返すことで複数選択することが出来、
選び終わったら再建策をすると、その単語で再検索を行えます。
いやこれは本当触っているだけで気持ちいいシステムです!(これ重要)
http://shinshomap.info/
■BOOK TOWN じんぼう
古書のメッカ、神保町の書店が探せます。
書店だけでなく、協力されている45書店の30万冊が検索対象として
実際に検索できます。
http://jimbou.info/
■想 - Imagine
これがもっとも、連想検索エンジンとしてわかりやすいです。
まず上部で検索して、その検索結果に出てくる関連キーワードを単語化して
スコアリングした結果が右側の単語チェックボックスとして出てきます。
ここで気になる単語をいくつかチェックして、上部のImagineボタンを押すと、
今度はそのチェックした単語から関連する結果を横断的に表示してくれます。
検索の文章から、「新書マップ」「ウィキペディア」など複数のデータから
同時に連想検索が行える。左側のDBlistなんかが密かにAjaxで移動できたりして
検索するのが楽しくなります。
http://imagine.bookmap.info/
想を紹介したウェブページもあります。
こちらもどうぞ。
▼Googleの限界は「人の手」で破る――国産の新検索「想」
http://www.itmedia.co.jp/news/articles/0606/08/news115.html
★その他各種サービス
他にも面白いサービスあります。
▼千夜千冊マップ
http://senya.pictopic.info/
▼webcat plus
http://webcatplus.nii.ac.jp/
▼新千代田図書館
リアルとネットのシームレスなサービスとして
こういった取り組みもされています。
※これはオープンウェブなさーびすではなく、図書館内だけのサービスです。
http://kaze.shinshomap.info/special/05/01.html
★ダウンロードサイト
ちなみにこの連想検索エンジンであるGETAはオープンソースで
以下のサイトでダウンロードできます。
▼汎用連想計算エンジン GETA
http://geta.ex.nii.ac.jp/
▼汎用連想計算エンジン GETAの実装
この文書が結構わかりやすいかも。(PDF)
http://brandenburg.cs.nii.ac.jp/~nis/geta32.pdf




