2008年のセマンティックウェブ

2008年におけるセマンティックウェブとは、ウィキペディアに紐づけられたウェブのことであるらしい。ここ最近話題になったいくつかのサービスを見ると、そう思わざるを得ない。

Faviki (mojixさんによる解説) (神崎さんによる解説)

SemanticHacker(解説:自然文を入力すると関連するウィキペディア記事のリストが表示される。)

Powerset Factz (@ITの解説)

screenshot screenshot screenshot

これらのサービスは、ウィキペディア、あるいはウィキペディアのデータをRDF化して提供しているDBpedia、あるいは構造化データのためのウィキペディアとも言うべきFreebaseが下敷きになっていて、関連情報の提示や文書の要約(のようなもの)をしてくれる。

セマンティックウェブには難しそうなイメージがあるが、実のところそれほど難しいことを言っているわけではない(と個人的には思っている)。まとめるとこんな感じか。

「みんなが同じ言葉を使ってものごとを指し示すようにすれば、同じ言葉に紐づいた様々なものごとを知ることができる。そして、言葉と言葉にの間に何らかの関係性が定義されていれば、同じ言葉だけではなく関係のある言葉に紐づいたものごとをも知ることができる。」

ポイントは同じ言葉を使うということと、言葉と言葉に関係性を定義するというところ。セマンティックウェブでは、関係性が与えられた言葉の集合(語彙体系)をオントロジーと呼んでいて、このオントロジーを用意し、みんながオントロジー上の言葉を使うようにすれば、上記のような環境はたやすく実現されるはず、というのが基本的な考え方になっている。まあ、それだけと言えばそれだけ。

とはいえ、言うは易く行うは難し。同じ言葉を使うというのはなかなか大変で、あらかじめ決められた語彙を使ってものごとを分類せよと言われたら、窮屈な感じがして気が乗らないし、もしやったとしても与えられた語彙でカバーできない例外が多すぎて破綻するだろう。

タグは上記の問題に一定の答を出している。タグはどんな文字列でもよいとすることで、例外の問題を回避している。また、束縛のない自由さが受け入れられて、これほどまでに普及したという面もある。

そうであれば、オントロジーに十分な数の語彙を用意して、束縛を感じさせないようにすれば…という考え方もあるが、今度は関係性を考えるにあたって言葉の組み合わせが爆発的に増え、とても定義しきれない。

ある種の折衷案として、タグ集合に統計処理を施してタグ同士のネットワークを作り出し、それをオントロジーと見なす研究もいくつかある。ただしこれも、得られたオントロジーが信頼できるものかどうかについては、正直なところよくわからないとしか言えない。

そういうわけで、言葉の自由度と関係性にはトレードオフがあるはずだったのだけれど、ウィキペディアが実用的な規模になるにつれて、この問題が(勝手に)決着しつつある。

記事の総数は日々増加していて、きのうは存在していなかった言葉がきょう登録されているといったことはざらにある。また、ウィキペディアには記事のカテゴリや記事同士のリンクがあり、これらはまさに言葉と言葉の関係性であるといえる。これだけではすべての言葉の関係性を網羅しているとは言えないが、カテゴリやリンクを比較的確度の高い情報とみなし、これらを種にしてさまざまな処理を適用し、記事同士の関係性を密にすることは不可能ではない。

こうして、以前は何に紐づければよいのか皆目見当がつかなかったのが、ウィキペディア(の見出し語)をターゲットにすればいいのだということになって、セマンティックウェブ界隈が活気づいているように見える。

もちろんウィキペディアは完璧ではなく、いわゆるSemantic Wikipediaプラグインの導入)なる構想もある。ここにきて急に立ち上がったように思えるウィキペディアベースのセマンティックウェブが、これから数年でどのように進歩していくのか、非常に気になる。

以下は余談。ウィキペディアオントロジーとしてのターゲットになるとすると、気になるのは言語間での記事数の違い。英語版の記事数は230万超、対して日本語版は50万程度と、4〜5倍ほどの違いがある。英語版は人名の記事が多いという指摘もあって、そのまま4〜5倍ではないかもしれないけれど、言語によって表現の自由度が変わりかねないというのは恐ろしすぎる。

英語版の記事をタイトルだけでいいから日本語版に移すプロジェクトとか、やった方がいいのかもしれない。もちろんウィキペディアを事典として使っている人にはいい迷惑以外の何者でもないけど…。