『Sparkによる実践データ解析 - 大規模データのための機械学習事例集』Sandy Ryzaほか
『Sparkによる実践データ解析 - 大規模データのための機械学習事例集』Sandy Ryza/Uri Laserson/Sean Owen/Josh Wills
ビッグデータという言葉が2011年末に登場してから、ずいぶん経つが、ふつうに暮らしてる分には、それを使って何かしよう、という気にならない。それどころか、まったく縁がないものと思ってしまう。あまりにもイメージがつかなすぎて。「ちょっとマクロを組んで~」とか、「軽くウェブスクレイピングして~」とかの場合、その対象が何であり、自分が何をしたいのかは、ほぼ明確にイメージできる。そう、つまりビッグデータの場合、事態が真逆なのだ。
さて本書は、ビッグデータを活用した事例集だ。入門書ではない分、かえってイメージがつかみやすい。音楽のレコメンド、潜在意味解析を使ったWikipediaの理解、神経画像データの分析、タクシーの移動データ解析、ゲノムデータの分析などが、章立てて紹介されている。うん、やっぱ普通に生活する上で、縁はなさそうだ。しかし、いざ思い立って何かやろうとした時、文字、音声、画像、遺伝子、地理データ等を、解析する手段を知っているのと知らないのとでは、気分的にも出発点的にも雲泥の差だ(果たして「いざ」って瞬間が訪れるのかは知らん)。
なお、この本は事例集なので、ここから「プログラム書くぞー!」って方面には進めない。その場合には、同じくオライリーから『初めてのSpark』という入門書が出てる。そこを入り口にしたら比較的スムーズにやりたいことができるようになるだろう(ただしプログラミングとデータベースに無縁の人生を送っていた場合、この限りではない)。
ところで、9章には「モンテカルロシミュレーションによる金融リスクの推定」とあり、「なぜモンテカルロ法???」と思ったが、この分野では強化学習に使えるのな。知らなかった。
ビッグデータ分析におけるSparkの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチューニングについて解説します。
高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。
Sparkによる実践データ解析 ―大規模データのための機械学習事例集
- 作者: Sandy Ryza,Uri Laserson,Sean Owen,Josh Wills,石川有,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2016/01/23
- メディア: 大型本
- この商品を含むブログ (3件) を見る