キーエンス流、データサイエンティストになる方法とは
職種&スキルの図鑑複雑な統計知識よりも、大まかな理解が大事
さて、正しい課題を特定したら、次のステップは「解く」、すなわち分析です。ここで必要になるのが②統計解析、③機械学習、④データ加工・可視化のスキルです。
②統計解析については、解析技術を使って何ができるのかを把握することが大切です。解析にはプログラミング言語のPythonやSQLが必須だとよく言われますが、今は便利なツールがいろいろありますし、エクセルでも簡単な統計処理はできますから、専門的な言語を必死に学ぶより、まずは大まかな概念を理解しましょう。
教科書を見ると、微分積分や線形代数が出てくるのでビビる人も多いでしょうが、完璧に理解できなくても大丈夫。例えば「誤差を最小化する」とは、ある曲線の関数を定義し、微分して傾きがゼロになるところで極値を取るのだという概念がわかっていれば、実際に数式を自分で書けたり解けたりする必要はありません。
③機械学習は②統計解析と重複する部分も多く、明確な区分けはありません。データからパターンや傾向を見つけ出すという点は共通で、統計解析はある目的に対してデータを解釈して答えを出すことに重きが置かれています。機械学習はモデルの構築がメイン。データを使って精度の高い予測モデルを作り運用していきます。

「的確なグラフをいくつか描ければ、AIを使わずに解決することも多い」と山本さん
データ分析のステップでは④データ加工・可視化スキルも大事です。先ほどデータ分析自体は、データサイエンティストの仕事の工程の2割程度にすぎないと言いましたが、分析時間の8割はデータの加工にかけていると思います。というのも、通常データって形式が統一されていなかったり、欠損値や異常値があったりして、決してキレイではないからです。それを分析に適するように整えるのがデータ加工です。
データの可視化スキルは、データを理解する際と、分析結果をアウトプットする際にも使います。実は「AIを使って分析してほしい」と言われた課題も、的確なグラフをいくつか描ければ、AIを使わずに解決することも多いのです。技術は高度化すればするほど適用範囲が狭くなる傾向があるので、グラフを使って可視化するスキルの方が汎用性は高いと言えます。
他にグラフを見極める力も必要です。例えば、ある銀行が自社のデータを分析して「水道代が3500円未満の人はローンを利用率が高い」という結果が出たとします。初心者だと「そうか、水道代が安いほどローンを借りるんだ」などと考えるのですが、私たちデータサイエンティストチームは必ず「ちょっと待ってください。グラフを見ましょう」と言います。
実際に水道代が3500円未満の人は世の中にどのくらいいるのかグラフを出してみると、水道代の分布は世帯人数と相関していて3500円未満の人には一人暮らしが多いとわかります。つまり2つのグラフを見て初めて、ローンを借りやすいのは、水道代が安いというより1人暮らしの人なのだという結果が導き出せるのです。
――後編では、最後のスキル「ステークホルダーマネジメント」と、オススメの入門書や学習法、データサイエンティストのキャリアパスについて解説します。
(ライター石臥薫子)