#blog2navi()

何故、データサイエンティストなの?

データサイエンティストやビックデータは何が面白いの?

ここ暫くデータ分析を行うデータサイエンティストや巨大なデータの分析を表すビックデータという言葉が人気だ。 日経も、日経ビックデータという専門誌を創刊するそうだ。 巷では、データサイエンティストは、21世紀で最もセクシーな職業だなんて煽り文句もあるようだ。 データを分析する専門家であるデータサイエンティストは、アメリカでは高給取りだなんて話もあるくらいだ。

そんな前のめりの話がある一方で、データサイエンティストは何が面白いのか、ビックデータは何故魅力的なのか、そこにフォーカスを当てる人はすごく少ない。 データを扱う人は何に魅力を感じ、どのようなことが面白いと感じるのか、それについて語られたことはあまりに少ない。

私はゲーム会社で、ユーザーの行動ログから行動の収集や分析を行っている。そのような立場から、ユーザーのデータを扱うのは何故面白いか、ビックデータは私にどのように見え、何故面白いかについて話してみようと思う。

ビックデータと街の灯り

私が大量のユーザー行動ログを見た時、それは宇宙から見た街の灯りのように見える。私にとってそれはとても綺麗に見える。

cities_at_night_04.jpg

これは、NASAが宇宙ステーションから写したロンドンの夜景だ。

http://izismile.com/2009/08/07/cities_at_night_seen_from_space_21_pics.html

この夜景は、街灯や家の光が集まって出来ている。

個々の家の光は小さな光だ。それらが集まることで、都市の形が作られている。

ビックデータも個々のデータは取るに足らない小さな行動だ。誰がゲームをしようが何を買おうがそれで世界がひっくり返るわけではない。それでもその小さな振る舞い一つ一つが集まり、やがて大きな振る舞いに変化している。そのような現象が愛おしいと思える。

人々の幸せを覗く

あるいは、単に人の幸せを覗くのが楽しいのかもしれない。FRBのグリーンスパン元議長は、その自伝の中で若いころ、アメリカ中央プレーリーの小麦のデータを調べてそれが面白かったと言ってた。人々の振る舞いや軌跡は小麦のデータとして定量的なデータに変わる。定量的なデータそのものには人の幸福も不幸も含まれていないけれど、そのデータの背後には幸福や不幸が隠されている。

ビックデータにもそのような人の行動の残り香がある。データを探りながらその背後にある人たちの営みを想像するのは面白い。

ハリ・セルダンになりたい人々

アイザック・アシモフのSF小説ファウンデーションシリーズに、心理歴史学という考え方がある。大まなか考え方は、「個々人の心理状態を読むことは出来ない。けれども巨視的に見れば(人を集団群をみなせば)、人々の行動は予測でき、そのため人々の歴史も数学的に予測できる」という考えだ。気体の分子運動がその考えのモデルになっている。個々の気体分子の振る舞いは予測できないが、気体全体として見ればその最終的な濃度は予測できるという考えだ。

ハリ・セルダンってのは、その歴史心理学の創始者。

ビックデータも同じような夢を夢想する。個々のユーザーの振る舞いは予測できない。けれども大きな粒子運動だととらえた場合、その振る舞いは予測できるんじゃないか?って。

データ分析の面白さ。

ユーザーの行動データが面白のは、その振る舞いを遠くから眺めることが出来るからだ。そして、自分はその輪の中には加われない。衛星のようにグルグルとその外側を回りながら、人々の営みを記録していく。 そのようなことが面白くで、私はデータ分析をやっているのだろう。

ここで宣伝

ニコニコ動画のコメントや動画情報を含んだニコニコ動画データセットが公開された。 http://www.nii.ac.jp/cscenter/idr/nico/nico.html

それらを使って、手軽に分析できる ニコニコデータセット分析環境を用意した。http://nicodata.info/ 簡単なSQLを書けば分析できる良かったら使ってみてほしい。

Category: [データ分析 ビックデータ] - 02:10:20

&blog2trackback();

#blog2navi()


トップ   差分 バックアップ リロード   一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2015-02-01 (日) 14:38:24 (1725d)