『Sparkによる実践データ解析 - 大規模データのための機械学習事例集』Sandy Ryzaほか

『Sparkによる実践データ解析 - 大規模データのための機械学習事例集』Sandy Ryza／Uri Laserson／Sean Owen／Josh Wills

ビッグデータという言葉が2011年末に登場してから、ずいぶん経つが、ふつうに暮らしてる分には、それを使って何かしよう、という気にならない。それどころか、まったく縁がないものと思ってしまう。あまりにもイメージがつかなすぎて。「ちょっとマクロを組んで～」とか、「軽くウェブスクレイピングして～」とかの場合、その対象が何であり、自分が何をしたいのかは、ほぼ明確にイメージできる。そう、つまりビッグデータの場合、事態が真逆なのだ。

さて本書は、ビッグデータを活用した事例集だ。入門書ではない分、かえってイメージがつかみやすい。音楽のレコメンド、潜在意味解析を使ったWikipediaの理解、神経画像データの分析、タクシーの移動データ解析、ゲノムデータの分析などが、章立てて紹介されている。うん、やっぱ普通に生活する上で、縁はなさそうだ。しかし、いざ思い立って何かやろうとした時、文字、音声、画像、遺伝子、地理データ等を、解析する手段を知っているのと知らないのとでは、気分的にも出発点的にも雲泥の差だ（果たして「いざ」って瞬間が訪れるのかは知らん）。

なお、この本は事例集なので、ここから「プログラム書くぞー！」って方面には進めない。その場合には、同じくオライリーから『初めてのSpark』という入門書が出てる。そこを入り口にしたら比較的スムーズにやりたいことができるようになるだろう（ただしプログラミングとデータベースに無縁の人生を送っていた場合、この限りではない）。

ところで、9章には「モンテカルロシミュレーションによる金融リスクの推定」とあり、「なぜモンテカルロ法？？？」と思ったが、この分野では強化学習に使えるのな。知らなかった。