読者です 読者をやめる 読者になる 読者になる

nigoblog

スタートアップのCMOブログ

データサイエンティストになるために重要ないくつかのこと~Harvard Business Review書評~

2012年最もセクシーな職業だと言われているデータサイエンティストについて。

今回はこちら


Harvard Business Reviewからいくつか紹介と、
その考察について書いて行きたいと思います。

これまで何回かwebマーケティングについて書いて行きましたが、それを専門とする職業データサイエンティストに今注目が集まっているので上記の本を参考に色々見ていきます。

初めに言っておくと、データサイエンティストとしての素養はビジネスをやる上ではとても重要なことだと思っています。
その専門家ではなくとも、データをある程度解析できる。そんな能力が今後必要となってくると考えます。

データサイエンティストとは

もう少しデータサイエンティストについて一言で言うと、
データを元に様々な予測や判断を行うために必要な人
というのが一番しっくりくる気がします。
つまり、
「経営・運営においてより正確な判断をしたい」という目的をデータを用いて達成する。
それがデータサイエンティストの役割です。

データから正確な判断をするためのフロー

上記の目的を達成するためにはフローが存在します。

  1. データ集め
  2. データの分析・解析(データマイニング)
  3. モデリング
  4. 最適化

このような流れでデータにより判断を行います。
これらはデータ活用フローの一部ではありますが、それぞれ得意分野が別れ、一人で出来るのものではありません。
つまり効率的なデータ活用にはチームで取り組む必要があります。
次の表に特性を示します。

項目 特性 必要な知識・スキル
データ集め エンジニア SQL、hadoop、NoSQL...etc
データマイニング エンジニア&ビジネス 統計学、R、Python...etc
モデリング ビジネス 経営、業界の知識
最適化 ビジネス マネジメント

まだまだ抜け漏れがあるかと思いますが、こんな感じです。
それではそれぞれ詳しく見て行きましょう。
今回は簡単のために「webサービスにおけるデータ活用」という点で話を進めていきます。

データ集め

そもそも分析・解析するためのデータがなければ話になりません。
ここで「webサービスにおけるデータ収集」ということで主な収集法を考えていきます。

google analytics

一般的な情報を取得するためのツール
このブログでも何回も言及しているのでお馴染み。

データベース

一番一般的なものはSQLなどのRDBMSです。
しかしRDBMSではデータ量が多くなってしまった時に処理に時間がかかるという欠点があります。
そこでNoSQLやhadoopなどを使います。
これらに関してはまだ知識がないのでなんともいえませんが、ビックデータを扱うにはhadoopの知識が必須となります。

上記2点が主なデータ集めの方法です。
得にhadoopはまだまだ扱える人がいないかつ扱うための場所も少ないというのが実際です。
Javaで書かれているために扱うにはプログラミングが出来なければならないし、
分散ネットワークなどインフラ系の知識も必要です。
というわけでデータ集めにはエンジニアでなければ出来ないということがわかります。

データマイニング

こちらは集めたデータの分析・解析ですが、さらにいうと、データ同士がどのような関係を持っているかを考えるパートです。
特に相関やカテゴライズなどが主になってきます。

相関

例えばあるデータAが大きくなればあるデータBも大きくなる。
この時に正の相関があるといい、結局伸ばしたいデータがBであるならばデータAを伸ばす戦略を取る。などの判断が出来ます。

カテゴライズ

こちらは簡単にいうと分類分けです。ECサイトであればある商品を購入したユーザーはグループAにある商品とある商品を購入したユーザーはグループBに。
それであればグループBで最も売れている商品をまだ購入していないグループBのユーザーへ推薦する。
などのような判断が出来ます。

これらを行うには統計学の知識が必須条件となります。
相関を見る際に、現れてくる誤差を正規分布で表したり、
ベイズの定理などで事象別に起こる相関など様々なところで現れます。
また、プログラミングの知識が必要な理由としては、
大量のデータを捌くのには手作業では絶対に出来ません。
なのでここではデータを処理するための「アルゴリズム力」とそれを実現する「実装力」の2つが必要になります。

まとめ

今回はデータ集めとデータマイニングに特化して説明しました。
上記にも書いたように、データサイエンティストは一口にいっても、そのフローの中で求められる知識や技術が違います。
もし、自分がデータサイエンティストになりたければ、どのフローで役立てるか考えてみるのがありかもしれません。

残りのモデリングや最適化についてはいつか言及したいと思います。