Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)

初めてのSparkを読み終わったので、次にApache Spark入門も読んでみました。こちらも非常に読みやすかったです。Apache Spark入門は初めてのSparkの後に出版されていることもあり、Sparkのバージョンも1.5となっており、Spark SQLの説明がDataFrame API前提となり、MLlibではmlパッケージについての説明もありました。またSpark Rについての解説もありました。

初めてのSparkと比べてインフラ周りの説明も丁寧に書いてある印象でした。また、基本APIやSpark SQLのようなライブラリの説明についてユースケースを想定して主要なAPIの説明するスタイルでした。一方、初めてのSparkは網羅的に書かれている印象でした。なお、一番大きな違いとして初めてのSparkは Python / Scala / Java の3種類のソースで解説していることに対して、Apache Spark入門はScalaのみでした(公式ドキュメントPython / Scala / Java の3種類が載っています)。

これから読む人にどちらを読んだらいいと聞かれたら、両方読めるなら両方読んだ方がいいと回答すると思います。記述している内容が異なる部分が結構あるので。どうしても片方というなら、基本的にはApache Spark入門をすすめます。Sparkの進化が早いのでなるべく最新バージョンに近い書籍の方がよいと考えるからです(初めてのSparkの原著が出版された2015年1月時点のSparkの最新は1.2でした。そこから3回バージョンアップされてます。。)。ただ、繰り返しますが、両方読めるなら両方読んだ方がいいと思います。