BOOK HUNTING

ノンフィクション系の新刊、近刊を平日5冊、週30冊ペースで紹介。児童書から医学書まで。

『Sparkによる実践データ解析 - 大規模データのための機械学習事例集』Sandy Ryzaほか

『Sparkによる実践データ解析 - 大規模データのための機械学習事例集』Sandy Ryza/Uri Laserson/Sean Owen/Josh Wills

ビッグデータという言葉が2011年末に登場してから、ずいぶん経つが、ふつうに暮らしてる分には、それを使って何かしよう、という気にならない。それどころか、まったく縁がないものと思ってしまう。あまりにもイメージがつかなすぎて。「ちょっとマクロを組んで~」とか、「軽くウェブスクレイピングして~」とかの場合、その対象が何であり、自分が何をしたいのかは、ほぼ明確にイメージできる。そう、つまりビッグデータの場合、事態が真逆なのだ。

さて本書は、ビッグデータを活用した事例集だ。入門書ではない分、かえってイメージがつかみやすい。音楽のレコメンド、潜在意味解析を使ったWikipediaの理解、神経画像データの分析、タクシーの移動データ解析、ゲノムデータの分析などが、章立てて紹介されている。うん、やっぱ普通に生活する上で、縁はなさそうだ。しかし、いざ思い立って何かやろうとした時、文字、音声、画像、遺伝子、地理データ等を、解析する手段を知っているのと知らないのとでは、気分的にも出発点的にも雲泥の差だ(果たして「いざ」って瞬間が訪れるのかは知らん)。

なお、この本は事例集なので、ここから「プログラム書くぞー!」って方面には進めない。その場合には、同じくオライリーから『初めてのSpark』という入門書が出てる。そこを入り口にしたら比較的スムーズにやりたいことができるようになるだろう(ただしプログラミングとデータベースに無縁の人生を送っていた場合、この限りではない)。

ところで、9章には「モンテカルロシミュレーションによる金融リスクの推定」とあり、「なぜモンテカルロ法???」と思ったが、この分野では強化学習に使えるのな。知らなかった。

ビッグデータ分析におけるSparkの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチューニングについて解説します。

高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。

Sparkによる実践データ解析 ―大規模データのための機械学習事例集

Sparkによる実践データ解析 ―大規模データのための機械学習事例集