Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク
Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)
- 作者: 株式会社NTTデータ,猿田浩輔,土橋昌,吉田耕陽,佐々木徹,都築正宜,下垣徹
- 出版社/メーカー: 翔泳社
- 発売日: 2015/10/29
- メディア: 大型本
- この商品を含むブログを見る
初めてのSparkを読み終わったので、次にApache Spark入門も読んでみました。こちらも非常に読みやすかったです。Apache Spark入門は初めてのSparkの後に出版されていることもあり、Sparkのバージョンも1.5となっており、Spark SQLの説明がDataFrame API前提となり、MLlibではmlパッケージについての説明もありました。またSpark Rについての解説もありました。
初めてのSparkと比べてインフラ周りの説明も丁寧に書いてある印象でした。また、基本APIやSpark SQLのようなライブラリの説明についてユースケースを想定して主要なAPIの説明するスタイルでした。一方、初めてのSparkは網羅的に書かれている印象でした。なお、一番大きな違いとして初めてのSparkは Python / Scala / Java の3種類のソースで解説していることに対して、Apache Spark入門はScalaのみでした(公式ドキュメントは Python / Scala / Java の3種類が載っています)。
これから読む人にどちらを読んだらいいと聞かれたら、両方読めるなら両方読んだ方がいいと回答すると思います。記述している内容が異なる部分が結構あるので。どうしても片方というなら、基本的にはApache Spark入門をすすめます。Sparkの進化が早いのでなるべく最新バージョンに近い書籍の方がよいと考えるからです(初めてのSparkの原著が出版された2015年1月時点のSparkの最新は1.2でした。そこから3回バージョンアップされてます。。)。ただ、繰り返しますが、両方読めるなら両方読んだ方がいいと思います。