データサイエンティストになるために重要ないくつかのこと~Harvard Business Review書評~
2012年最もセクシーな職業だと言われているデータサイエンティストについて。
今回はこちら
Harvard Business Review (ハーバード・ビジネス・レビュー) 2013年 02月号 [雑誌]
- 出版社/メーカー: ダイヤモンド社
- 発売日: 2013/01/10
- メディア: 雑誌
- 購入: 1人 クリック: 1回
- この商品を含むブログを見る
Harvard Business Reviewからいくつか紹介と、
その考察について書いて行きたいと思います。
これまで何回かwebマーケティングについて書いて行きましたが、それを専門とする職業データサイエンティストに今注目が集まっているので上記の本を参考に色々見ていきます。
初めに言っておくと、データサイエンティストとしての素養はビジネスをやる上ではとても重要なことだと思っています。
その専門家ではなくとも、データをある程度解析できる。そんな能力が今後必要となってくると考えます。
データサイエンティストとは
もう少しデータサイエンティストについて一言で言うと、
「データを元に様々な予測や判断を行うために必要な人」
というのが一番しっくりくる気がします。
つまり、
「経営・運営においてより正確な判断をしたい」という目的をデータを用いて達成する。
それがデータサイエンティストの役割です。
データから正確な判断をするためのフロー
上記の目的を達成するためにはフローが存在します。
- データ集め
- データの分析・解析(データマイニング)
- モデリング
- 最適化
このような流れでデータにより判断を行います。
これらはデータ活用フローの一部ではありますが、それぞれ得意分野が別れ、一人で出来るのものではありません。
つまり効率的なデータ活用にはチームで取り組む必要があります。
次の表に特性を示します。
項目 | 特性 | 必要な知識・スキル |
データ集め | エンジニア | SQL、hadoop、NoSQL...etc |
データマイニング | エンジニア&ビジネス | 統計学、R、Python...etc |
モデリング | ビジネス | 経営、業界の知識 |
最適化 | ビジネス | マネジメント |
まだまだ抜け漏れがあるかと思いますが、こんな感じです。
それではそれぞれ詳しく見て行きましょう。
今回は簡単のために「webサービスにおけるデータ活用」という点で話を進めていきます。
データ集め
そもそも分析・解析するためのデータがなければ話になりません。
ここで「webサービスにおけるデータ収集」ということで主な収集法を考えていきます。
google analytics
一般的な情報を取得するためのツール
このブログでも何回も言及しているのでお馴染み。
データベース
一番一般的なものはSQLなどのRDBMSです。
しかしRDBMSではデータ量が多くなってしまった時に処理に時間がかかるという欠点があります。
そこでNoSQLやhadoopなどを使います。
これらに関してはまだ知識がないのでなんともいえませんが、ビックデータを扱うにはhadoopの知識が必須となります。
上記2点が主なデータ集めの方法です。
得にhadoopはまだまだ扱える人がいないかつ扱うための場所も少ないというのが実際です。
Javaで書かれているために扱うにはプログラミングが出来なければならないし、
分散ネットワークなどインフラ系の知識も必要です。
というわけでデータ集めにはエンジニアでなければ出来ないということがわかります。
データマイニング
こちらは集めたデータの分析・解析ですが、さらにいうと、データ同士がどのような関係を持っているかを考えるパートです。
特に相関やカテゴライズなどが主になってきます。
相関
例えばあるデータAが大きくなればあるデータBも大きくなる。
この時に正の相関があるといい、結局伸ばしたいデータがBであるならばデータAを伸ばす戦略を取る。などの判断が出来ます。
カテゴライズ
こちらは簡単にいうと分類分けです。ECサイトであればある商品を購入したユーザーはグループAにある商品とある商品を購入したユーザーはグループBに。
それであればグループBで最も売れている商品をまだ購入していないグループBのユーザーへ推薦する。
などのような判断が出来ます。
これらを行うには統計学の知識が必須条件となります。
相関を見る際に、現れてくる誤差を正規分布で表したり、
ベイズの定理などで事象別に起こる相関など様々なところで現れます。
また、プログラミングの知識が必要な理由としては、
大量のデータを捌くのには手作業では絶対に出来ません。
なのでここではデータを処理するための「アルゴリズム力」とそれを実現する「実装力」の2つが必要になります。
まとめ
今回はデータ集めとデータマイニングに特化して説明しました。
上記にも書いたように、データサイエンティストは一口にいっても、そのフローの中で求められる知識や技術が違います。
もし、自分がデータサイエンティストになりたければ、どのフローで役立てるか考えてみるのがありかもしれません。
残りのモデリングや最適化についてはいつか言及したいと思います。
関連記事
マーケター必見R入門 ! Rを使って数字分析を行う~インストールからグラフの描画まで~ - nigoblog
【連載】第三回Google Analyticsで行うwebマーケティング~曜日毎の定量分析~ - nigoblog
【連載】第二回Google Analyticsで行うwebマーケティング~コンテンツ別に見た解析~ - nigoblog
【連載】第一回Google Analyticsで行うwebマーケティング ~ページビュー数を上げる方法~ - nigoblog
Google Analyticsの使い方 ~数字を追ってwebマーケティング~ - nigoblog
webマーケティングについて考える - nigoblog
webマーケティングについて考える2~数字から見るブログ分析~ - nigoblog
webマーケター必須のアプリ!!~Quicklyticsの使い方~ - nigoblog
Google Analytics導入から一週間、ブログの分析をする~Google analytics活用編~ - nigoblog