
ニューズ・ツー・ユーの神原弥奈子さん主催によるオンラインビジネスセミナー
「日本語検索エンジンの仕組みとこれから
〜Yahoo! JAPANの日本語処理技術と検索の将来〜」
に参加してきました。
ゲストスピーカーは山下達雄(たつを)さん。
茶せんの開発に携わった人物であり、機械翻訳・翻訳支援のシステムの研究・開発に携わり、現在「Yahoo! JAPAN研究所」研究員。
自然言語処理技術の研究とWebサービスへの適用に従事されています。
たつをさんの参加者を魅了するプレゼンテーションと
モデレーターの神原さんの的確な質問と、進行で本当に場が盛り上がりました。
今回、セミナーに参加して私なりの視点で気になったキーワードを列挙したいと思います。
■個人的に気になったキーワード
・バーティカル検索
・YahooとGoogleの違い
・Yahoo形態素解析APIのメリットと目的
・お金払って書かれてるブログ等に対して対処する?
・解析することでできる様々な検索
・パーソナライズって本当必要?
・モバイル検索どう思う?
★バーティカル検索
・検索エンジンへの新規参入をしても、もう厳しい。
・いくら画期的な検索エンジンが出来たとしても、人がそちらに移動しない。
・もし新しい検索エンジンが台頭するとすれば「バーティカル検索」においてだろう。
バーティカル検索とはここではニッチな検索のことを指します。
つまりはある分野に特化した検索、例えばブログとか、例えばある商品とか
そういった範囲をフィルターした範囲では優位に立つものが出てきます。
私も以前からブログなどで論じているが、
今後の企業におけるウェブ潮流キーワードは
「フィルター」
「コンシェルジュ」
「アグリゲート」
だと感じています。
つまり増え続ける情報の中で、どう「フィルター」して必要な情報だけを抽出するか。
次にそのフィルターだけではどうしてももれてしまう情報を
人力で補完する「コンシェルジュ」
そして集めた情報を一括に集め、より便利に使えるようにすます
「アグリゲート」というサービスの流れが確立すると考えています。
しかしこれらにおいては重要を増してくるのが「データの蓄積」に他ならず、
企業としての母体がないとなかなかビジネスとして難しいとも感じています。
まさにたつをさんも同じ視点で考えていて、
「万が一YahooやGoogleの検索エンジン企業を脅かすものが出てくるとするならば、
それはバーティカル検索を組み合わせた一括検索システムだろう」
とおっしゃってたのが印象的でした。
中国のトップ検索エンジン、百度(バイドゥ)が参入し、
SONYの出井氏を社外取締役に迎えた記事は有名ですが、
私は日本の検索エンジン業界の状況を覆すほどになるのはならないのではと思っています。
百度が中国ではやったのは、mp3検索が出来たから。
音楽名で検索すると、音楽mp3がわんさか出てきます。
つまりは音楽検索というバーティカル検索に特化した企業であり、
逆にそれをつかってアグリゲートした検索エンジンサイトとして台頭しました。
もし百度が日本市場を真剣に席巻したいのであれば、
バーティカル検索に特化して、それを気にアグリゲートしていくことが
戦略アプローチとして正しいと思います。
★YahooとGoogleの違い
・Googleはプログラムでなんとかする
・Yahooは人力でなんとかする
確かに私自身、両方の検索エンジンを使いますが、
新しく出てきた有名サイトなどはYahooの方がトップに出てくることが多いです。
やはり人力を使って検索結果に影響を与えている成果でしょう。
Yahooはおおよそ100名(正確な人数はわからない)位の人数が
日本語処理や検索結果に関連する部署についておられるとのことでした。
どれだけ人力を大切にしているかがうかがえます。
またワールドワイドなグローバルとして検索には限界があり、
やはり日本語に特化した形態素解析、インデックス、検索が重要になってくる
と思います。
個人的に面白いとおもったのは、Yahoo JAPANは米国のYahooと完全に独立した企業体
であるため、Yahoo本体の検索に縛られなくてすむとの話でした。
要は日本、日本語に特化した検索エンジンが出来るということ。
翻訳のソフトなどでもそうですが、日本語の解析は英語などに比べるとはるかに難しいです。
やはりその言語に特化した検索は必要になってくると思います。
★Yahoo形態素解析APIのメリットと目的
・布石
・検索に本当に大事なところは出してない。
私個人的にご質問させていただいたのだが、この質問です。
最近Yahooは外部から形態素解析を利用できるAPIをだしました。
ただそのメリットが明確に見えないのが現状です。
私自身が考えているのは、キーワードを形態素解析エンジンにたくさん食べさせることで
データを集めたるのが目的なのかと思ってます。
たつをさんによると、これは実験的な意味で出したかったという意味合いが大きいようです。
ではYahooが長年培ってきた情報を出すことは、企業としての損失にはならないのですか?
との質問に対し、たつをさんは、
「形態素解析事態に価値があるのではなく、単語を分割したそれぞれに意味づけをし、
それをどう関連付けていくかが重要であり、ノウハウだ」
とおっしゃっていました。
つまりデータをシステマティックに分割するだけでは検索として使えず
セマンティック、つまり意味づけをすることが重要だということですね。
私も以前、楽天にいたときにエンジニアとして少し検索システム・形態素解析など界隈に
関わっていたのでわかるのですが、やはりセマンティックな意味づけ、
そしてその後の分類が非常に重要であると肌で認識しています。
つまりモーニング娘。という単語は、固有名詞なのか一般名詞なのか、
もっと突っ込んで、人物名なのか、それとも型番なのか
単語自体に意味づけし、関連付けていることに意味があるということになります。
Yahoo!形態素解析APIは使ってみる非常にわくわくします。
エンジニアの方で早速APIを使ってプログラムしてみたい方は、
shimookaさんがかかれた「[PHP]Yahoo!の日本語形態素解析Webサービスを使ってTwitterで流行っているキーワードをクラウド化」のエントリーが非常にわかりやすいので、参考にされると良いと思います。
★お金払って書かれてるブログ等に対して対処する?
・スパム的なものには対処していく
・いたちごっこ
・意味のある記事書いてあったらそれはそれでいいと思う。
最近企業がお金を払って、ブログを書いてもらったり、
被リンクをあつめるために、様々なサイトを大量に貼ってもらったりしています。
たつをさんは「スパム的なものはもちろん対処していく」といっている一方で、
各ブロガーが企業や商品についてかかれることは
「その人の言葉で書いているのなら、それはそれで価値があるものだと認識している」
とのことでした。
★解析することでできる様々な検索
・Yahoo!の評判検索で、ポジティブ・ネガティブ検索できるよ。
・ポジティブとネガティブを言葉から理解するけど結構難しいよ。
・ブログテキストからの性別認識とかできるよ。
Yahoo!の評判検索では、ブログなどの言葉からキーワードのポジティブ・ネガティブを分類し
視覚的に見ることが出来ます。
Yahoo!ブログ検索 - 「逆転裁判」の検索結果
言葉から判断しますが、やはりその意味的な部分で解析しないといけないのと、キーワードの分野、
そして係り受けされる言葉によって処理しないといけないといけません。
・電池の減りが早い→ネガティブ
・起動までの時間が早い→ポジティブ
のような感じですね。
ちなみに「早い」は「速い」が正しい場合もありますが、やはり間違えて使われるもの
その辺りも吸収して解析する必要があるとのことでした。
そして個人的に最も興味を持ったのが、テキストからわかる情報はもっともっとあるということ。
たとえばこのブログが男性によってかかれているか、女性によって書かれているかは既に判断できているとの話でした。
また
・年齢判定
・地域判定
・プロフィール情報から情報抽出
等の研究も進められているそうで、この辺りも現実化すると、
会員登録という形をとらなくても、どういったユーザーがどういった情報をあげているかがわかってくるようになります。
★パーソナライズって本当必要?
・あまりされすぎるとどうなの?
・いろんな自分(ペルソナ)いるよね。
私自身も全てのパーソナライズには懐疑的でありました。
たつをさんの口から「いくら普段、仕事のことで検索しているからといって、やっぱり六本木でスイーツ探したいときもあるよね」
という話が、的を得ていて印象的でした。
なんでもかんでもパーソナライズが叫ばれていますが、
そうではない何かを模索しなければならない時期にきている気がします。
★モバイル検索どう思う?
・もうちょっとまってればPCみたいになるよ
・位置情報が重要じゃない?
現在PCとモバイルは別検索として動かしています。
企業としても別対策をしないといけないのが現状でしょう。
たつをさんは「結局、対コスト費」との話をされた上で、
ものすごいお金をかけて研究、開発をしても、あと数年もすればPCで出来てるようなことが出来るのではとおっしゃってました。
おっしゃるとおりで私自身ケータイサービスクリエイターとして
モバイルの検索対策に今お金をかけるべき時期ではないと感じでいます。
もっと携帯だからこそのユーザーインターフェースに注力すべき時期だと思っています。
この辺りは長くなるので、また別の機会に論じます。
もし考えていかなければならないとすれば、今までに無かった情報「位置情報」を
どう扱うかがポイントではないかとおっしゃってました。
もちろんあげられてくるテキストを解析することも重要ですが、
新しい意味づけされた情報があがってくるとすれば、それを捕らえない手はありません。
そういう意味ではそこに注力することに意味があるでしょう。
★まとめ
検索を通して今後のウェブの時流と、どこに注力して行くべきかが見えるセミナーでありました。
ケータイサービスに携わっている自分としては、やはり導入期となるモバイルに特に注力して行きたいです。
逆に検索エンジンが大見得きって参入してこないとわかった今、楽しいことがたくさん出来そうです。
関連記事
[を] 六本木ヒルズでやっているセミナーでしゃべってきました
ニューズ・ツー・ユー社長のブログ : minako's blog : SEO対策の第一歩は、美しい日本語
[を] Yahoo!デベロッパーネットワークにテキスト解析APIが登場!
[PHP]Yahoo!の日本語形態素解析Webサービスを使ってTwitterで流行っているキーワードをクラウド化
Yahoo!ブログ検索 - 「逆転裁判」の検索結果