「データ分析」って一体何をどうすること?皆さんは「データ分析」とは一体“何をどうすることなのか?”と聞かれて明確に具体的に回答できるでしょうか。「データ分析」によるアウトプットとは何で、皆さんはそれによってどんな良いことがあると考えていますか?実際にここが非常にあいまいなまま、「とりあえず」データをいじってみる人が後を絶ちません。実はその時点で「データから有効な情報を引き出す」ことに失敗しているのです。「データサイエンス」と言う言葉をよく耳にします。「データをうまく処理さえすれば、これまでできなかったこと、知り得なかったことが次々とわかる」こういう印象を持つ方は少なくないのではないでしょうか。では、「データ分析」の範囲とその中身を整理してみましょう(下図参照)。これはあくまで私自身で行ったカテゴリー分けで、世の中には違う定義が存在するかもしれませんが、本質を整理するためには十分だと考えます。上図は一般的に「データ分析」という言葉で網羅される世界を簡略化して示しています。ただし、私の考える「実務でその担当者がデータ(分析)を活かすこと」は、その中の一部であることに注意ください(※図中「データ分析」カテゴリー)。一般的に、データ分析の専門家(データサイエンティスト)が扱う領域は、上図一番上の層です。この専門家になるためには、学問的な数学、統計学、プログラミングおよび最新技術の知識と理解が必要です。ただし、データ分析専門企業でない、一般的な事業会社でこれらのスキルを内部的に常時必要としているところはかなり稀でしょう。必要に応じて外部委託または、機械に任せてしまえばよい領域だからです。一方、ネットの発展でデータが容易に集められるようになり、それを社内で柔軟に使い、成果を出したいと考えるケースは圧倒的に多く、その範囲は上図中段と下段の2つです。決して、データ分析の専門家ではない実務家が、高度な分析ツールや手法、統計理論を使って何とかできるというものではありません。そして、敢えてこの2段を分けているのは重要な理由があります。ベンチャー企業から超大手企業に至るまで「データはあるけど、十分な分析で成果を得られていない」という悩みを持っている組織は、取り組む範囲がこの図の下段(データ整理)で終わってしまっています。これでは「役に立つ、説得力のある」分析結果を得ることは難しいのです。狙うべきは中段の範囲です。いずれにせよ何よりも絶対的に必要なのは、自分が実現したいアウトプットによって、どの部分を目指すのかを明らかにすることなのです。本連載では、この図の中・下段を対象とします。つまり、データサイエンティストの人向けに最新技術動向とプログラミングのコツをお伝えすることとは別の話になります。そして、下段(データ整理)で止まってしまっている人や組織が中段(データ分析)に届くようになるための考え方やスキルについて考えます。結果として、実務に必要な成果を実務担当者自ら柔軟に生み出すことができるようになることでしょう。これが正に多くの組織で求められているゴールなのです。それは「統計理論」でも「高度な分析手法やツール」でも「最新のプログラミング技術」でもありません。データの収集方法、処理方法がどんなに基礎的であろうと、最新技術に基づくものであろうと、・どんなデータを使うのか・出てきたアウトプットをどう解釈し、活用するのかについては、人のスキル(ソフトスキル)が求められます(下図「データ分析領域」の部分)。既述の通り、データを使いこなせていない人や組織はこれが圧倒的に(不足ではなく)欠落しているのです。逆に、研修や実務サポートでこの点を強化することで、具体的な課題解決やビジネスの成果が出ています。データ分析にまつわるよくある誤解「データ分析スキルを得たい」と考える人の中には、「分析方法さえもっと多く知ることができれば、いつも見ているあのデータからも、新たな情報が得られる」という期待を抱く人が少なくありません。でも、しばらくデータと格闘すると、その考えが”幻想“であることに気づき、途中で諦めるか、永遠にもがき続けることになります。なぜそれが”幻想“なのか。その理由や背景はいくつもあるのですが、ここでは一番わかりやすい(そして陥りやすい)背景を一つお伝えします(下図参照)。皆さんの職場にあるデータは、目の前の課題をどの程度詳細に網羅的に表していると言えるでしょうか。ビッグデータの時代ですので、もし手元のデータがビジネスの全体像を100%表すことができていれば理論上問題ないのですが、そのようなケースに私自身出会ったことがありません。通常の会社で手に入るデータの代表例としては、「売上額実績」や「顧客満足度スコア」などでしょう。一段細かくして、製品別、顧客属性別、地域別、時間別などで分解されたものではないでしょうか。でもそのデータをいくら眺めていても、例えば「なぜ水曜日は金曜日よりも売り上げが高いのか」や「どうして関東は関西よりも顧客満足度が低いのか」といった情報は手に入りません。手元のデータが示せることなど、現実の極々一部でしかない、という現実に立ち返る必要があります。更に、分析者がそのデータから引き出せる情報も、そのデータが持つ情報全体の一部に過ぎないはずです。私は講演などで、このような表現を使うことがあります「データの中に答えなんてない」敢えて注意を引くために少し刺激的な表現していますが、かなり本質を突いた内容だと思っています。「データの中にきっと知りたい答えがある」という幻想のもと、延々にデータと格闘し、結果的に実利を得るに至らないケースをたくさん目にしてきました。それでは実務におけるデータ分析はうまくいかないのです。では、これらをクリアするためには一体何が必要なのでしょうか。それは「答えを自分で作る」というアプローチです。そのためには、自分で課題や目的を具体的に定義し、必要なロジックを仮説として立てることから始まります。これらについては、次回にお伝えしたいと思います。