こんにちは、気付いたらオライリーから本が出ていました、ところてんです。
今回は電子版のみで物理版は少数ですが、Cloudera World Tokyo2017で販売されます。
(追記)物理版書籍が正式に出ることになりました。
私がメインで書いたのは、「 8章 Kickstarterの分析、機械学習を使わないという選択肢」と「 9章 Uplift Modelingによるマーケティング資源の効率化」の二つです。
本の詳細な紹介はchezouさんに任せるとして、今日は「人工知能でいい感じの成果を出してくれ」という偉い人の脳内はどうなっているのか、というポエムを書こうと思います。
この記事は、前出の本に入れる予定だったコラムのうちの一つです。
正確にいうと、本に入れる予定だったけど、メイン側で締め切りをぶっちぎっていたら、コラムを追加できるような空気じゃなくなって、書くのをやめたものです。
本の宣伝を兼ねて、没にしたコラムに日の目を見させて、あわよくば第二版で入ればいいなー、という内容です。
データサイエンティストの頭の中
「偉い人たちは頭がおかしい」と言っても、それは相対的なものであるため、比較対象であるデータサイエンティストの頭の中を覗いてみましょう。
データサイエンティストは組織におけるデータ活用状況について、レベル分けして考えます。そして、基本的に前のレベルが実現できなくては、次のレベルに進むことはできないと考えています。
以下のレベル分けは私が適当に思い描いているものですが、同業者なら大よそ一緒なんじゃないかと思います。
- Lv0:
データ収集、ログ設計 - Lv1:
システムから切り離された環境でのデータ蓄積=データの民主化
SQL等による基礎統計
統計等からインサイトを得られる状況 - Lv2:
基礎統計の充実、BIツールによるダッシュボード化
ピボットテーブル等による探索的な手動データマイニング
手動データマイニングから施策を立案できる、手動で実行できる - Lv3:
機械学習アルゴリズムを利用した探索的データマイニング
ABテスト等を利用した、データに基づく意思決定
ちくわ大明神 - Lv4:
機械学習等を利用して、自動的に施策実行される環境を構築する
機械学習により安定的に稼ぐ仕組みを作る - Lv5:
Lv4で作ったシステムで使われている機械学習アルゴリズムをより高度なモノ(例えばディープラーニングとか)に置き換えていき、収益性を改善する
つまり、データサイエンティストの脳内では、技術はスタック構造をなしており、前段階が実現できなければ、次に進むのは困難だと考えています。
雑に表にすると、こんな感じ。
「ディープラーニングで何とかしてください」案件に対して強い違和感を覚えるのは、ディープラーニングはLv5で使うべき技術であって、お前の会社はまずログ収集をちゃんとするところからだろ、脳みそに蛆でも湧いてんのか。ぶち殺すぞヒューマン。
余談:Lv1の会社からのディープラーニング案件
基本的なことをやってから、それでもダメなら、ディープラーニングやりましょう、という話をして、ディープラーニングの依頼に対して、信号処理をやって納品した事例。
この仕事やってると、電気系の学部で覚えた技術がなんだかんだで役立つことが多い。
ちなみにソシャゲ屋の時代の「DAUを捨てた会社の話」も、ローパスフィルタ通して、信号とノイズを分離すれば、正しい分析ができるよね、という発想だった。
ほかの本でのレベル分けの紹介
私の脳内妄想だけだと信頼性が低いので、適当に他の書籍から引用。
この本はBIツールすげーよ、いいよ、っていう2008年の本なので、Lv0~Lv3くらいを厚く書いているので、そこを割り引いてみる必要があるけど、まあだいたい同じ。
この本はデータ分析組織を進めるにあたっての、会社組織の人事をどうするべきか(=社内政治)に踏み込んでいる稀有な本でそこらへんが大変良い。
偉い人の脳内
さて、本題、偉い人の脳内ではどうなっているのでしょうか。
彼らは、日経○聞やWebの適当な記事を見てキーワードを仕入れてきます。そして仕入れたキーワードをもとに、他社のお偉方と話します。
「これからは、ディープラーニングですよ」
「なるほど、我々もこれからはディープラーニングだと思っていたんですよ」
「「がはははは」」
というわけで、彼らは、仕入れたキーワードで上っ面の会話をし、キーワードを他社のお偉方も知っていることに満足し、そしてキーワードの認識のみが強化されていくわけです。
その結果、「ディープラーニング」「ビジネスインテリジェンス」「機械学習」「人工知能」「データマイニング」等々は、相互に絡みあうものだという認識が無く、それらがどのような関係性なのかも理解しないまま、「重要である」ということだけが強化されていきます。
加えて、他社の人が話さなくなったキーワードは旬が過ぎたものであり、やる価値がないという考えを持ちます。たとえそれが、基礎技術であり、それがないとディープラーニング等が成立しないとしてもです。
つまり、技術は積み上げではなく、時系列だと考えているのです。
彼らにとっては技術は点であり、線や面や空間ではないのです。
そのため、「ディープラーニングを行いたい!」と主張する偉い人に対して、「データを収集して、まず基本的な統計から行いましょう」「BIツールを作ってダッシュボードを作って、現場の改善から行いましょう」と提案しても、それは過去のトレンドだから、といって拒否されてしまいます。
どうやって偉い人を説得するのか
あまり成功率は高くありませんが、私は以下の記事を読む用に伝えます。
小学生でも分かるまとめ
日経○聞「割り算はいいぞ!割合とか分かるぞ」
社長「割り算はいいぞ!やれ、今すぐやれ!」
現場「社長、弊社の社員は足し算はできますが、引き算ができるのは約半数、掛け算に至っては5%の社員ができるかどうかなんです、この状態で割り算を弊社に導入しても意味がありません」
社長「つまり、それは無理ということか?」
現場「はい、今の状況では難しいかと。リーダーである私も、実は七の段が怪しく……」
社長「『無理』というのはですね、嘘吐きの言葉なんです。途中で止めてしまうから無理になるんですよ」
つまり日○新聞が悪い。
やはり○経新聞は悪い文明!!粉砕する!!!
ミッターマイヤー少将によるまとめ
まとめ
- 本が出るよ
- 偉い人の脳内は、知識がリンクしていなくて、時系列的で、直列構造をしている
- 技術は下から積み上げていかないと実現することはできないので、基礎からやっていないとダメ
- 偉い人はそれを容赦なく無視して、最先端のことをやれと言ってくる
- 日経新○でキーワードだけ拾ってくるのが諸悪の根源
本書こう
みんな本を書こう。
本書は技術書典で同人誌出版→即売り切れで好評→商業版出版の流れでした。
そういえば今日は技術書典3の開催です。