ページの先頭です


ページ内移動用のリンクです

  1. ホーム
  2. IIJの技術
  3. セキュリティ・技術レポート
  4. Internet Infrastructure Review(IIR)
  5. Vol.28
  6. 3.技術トレンド

Internet Infrastructure Review(IIR)Vol.28
2015年8月31日
RSS

目次

3.3 ビッグデータとしてのWikipedia

ソーシャル・ビッグデータと言えばTwitterで流通しているメッセージをイメージされる方が多いと思うのですが、筆者はWikipediaに着目しています。

最もポピュラーな電子辞書サービスであるWikipediaの概要をここで改めて紹介する必要はないと思いますが、ビッグデータとしてもWikipediaは注目すべき存在です。Wikipedia日本語版の「Wikipedia:統計」ページ(※4)、あるいはWikipedia英語版の"Wikipedia:Statistics"(※5)を見ると最新のWikipediaの記事総数などが掲載されています。

2015年7月20日時点でのWikipediaの総記事数は4,920,887件で総項目数(周辺情報も含める)36,748,410ページ、日本語に限定しても総記事数974,894件、総項目数2,785,007ページにもなります。このデータはCC-BY-SA 3.0*6というライセンス条件に基づいて改変、複製などの2次的利用をすることもできます。一般的なオープンソースソフトウェアと同様に使える「ライセンス的に最も安全なビッグデータ」と言えるかもしれません。

Wikipediaのデータは“Wikimedia Download"(※7)というページから辿ることができます。Wikipediaでは、常時データバックアップのタスクが動いており各言語で順次バックアップを行っています。筆者の知見では概ね1ヵ月単位で新たなバックアップが作成されます。

このWikipediaデータは既に様々なところで活用されています。著名なところで言えば、例えばDBpedia(※8)(※9)、これはWikipediaデータからLinked Open Data(LOD)を生成しデータベース化するプロジェクトです。このデータベースは自然言語処理やテキストマイニングなどに活用されるようです。

3.3.1ソーシャル・ビッグデータとしてのWikipedia

ではWikiシステムを使った人海戦術で電子辞書としてのコンテンツを維持しているWikipediaはソーシャル・ビッグデータでしょうか?「辞書としての有用性を追求し、ライターが客観的な事実に基づく記述をするよう促すため、システムと運用の両面で数々の工夫を施しているWikipediaの記事データはファクト・ビッグデータに分類すべき」というのが筆者の意見です。もちろん、Wikiシステムを使って人手により記述・修正されているデータですので、機械的に生成されるデータに比べて、記述の誤りや事実誤認、記事相互での矛盾など、データとしての完全性に問題はありますが、その反面、事実が確認不能な事柄や定説が定まらない事柄なども網羅できる「間口の広いファクト・ビッグデータ」とも理解できます。

もっともWikipediaにはソーシャル・ビッグデータとしての顔もあります。2013年から公開されるようになった“Page viewstatistics for Wikimedia projects"(※10)がそれに該当します。これはWikimediaプロジェクトの全ページについて、1時間単位でページビューカウントを集計したデータで、ここから辿ると2008年(正確には2007年12月)以降のページビュー情報を入手することができます。

筆者の研究グループでは2013年6月にこのデータに基づくランキングサービス(※11)を立ち上げて以来、ランキングの変動の面白さ、すなわち「世間で話題になっているトピックがランキング上位にマークされる」振る舞いに注目していました(図-3)。

図-3 Wikipediaランキング

3.3.2 Tobias Preisの研究

ウォーリック大学の金融行動学の准教授であるTobias Preisによれば、インターネットを利用する個人の情報探索行動がこのような振る舞いを発生させていると説明しています。例えば、マスメディアなどで大々的に報道されているトピックに接すると、日常的にインターネットを利用する個人はサーチエンジンで検索したり、Wikipediaを閲覧して、トピックに関する情報を収集する行動をとります。この行動の痕跡は検索エンジンのクエリーデータやWikipediaのページビューとして記録されると推測されます。この現象に注目したPreisは2010年の論文"Complex dynamics of our economic lifeon different scales : insights from search engine querydata"(※12)で、サーチエンジンのクエリーデータと株式市場の変動が相関していることを突き止めました。

続く論文"Quantifying Trading Behavior in Financial MarketsUsing Google Trends"(※13)では、Google Trendsから得られるクエリーデータに含まれる金融関連の98の用語の検索量の増大が金融市場の大きな損失に先行する傾向があることを示唆しました。

更に論文"Quantifying Wikipedia Usage Patterns BeforeStock Market Moves"(※14)では、Google Trendsでの分析の知見を使ってWikipediaの閲覧回数が株式市場の大規模な変動と相関することを発見しています。

これらの論文でのPreisの結論では、検索エンジンのクエリーデータやWikipediaのページビューといったオンラインデータから、意思決定を迫られている人々の情報収集活動について新たな知見が得られる可能性を指摘しています。例えば、株式市場の大暴落といった事象は個々の投資家の意思決定の結果ですが、オンラインデータに注目していれば、その兆候を早期に発見することができるわけです。これはソーシャル・ビッグデータを活用した典型的なソリューションの一例でしょう。

  1. (※4)https://ja.wikipedia.org/wiki/Wikipedia:%E7%B5%B1%E8%A8%88blank
  2. (※5)https://en.wikipedia.org/wiki/Wikipedia:Statisticsblank
  3. (※6)「クリエーティブ・コモンズ」(https://ja.wikipedia.org/wiki/%E3%82%AF%E3%83%AA%E3%82%A8%E3%82%A4%E3%83%86%E3%82%A3%E3%83%96%E3%83%BB%E3%82%B3%E3%83%A2%E3%83%B3%E3%82%BAblank)。
  4. (※7)http://dumps.wikimedia.org/blank
  5. (※8)http://wiki.dbpedia.org/blank
  6. (※9)http://ja.dbpedia.org/blank
  7. (※10)http://dumps.wikimedia.org/other/pagecounts-raw/blank
  8. (※11)http://www.gryfon.iij-ii.co.jp/ranking/blank
3.技術トレンド

ページの終わりです

ページの先頭へ戻る