初めてのSpark

初めてのSpark

初めてのSpark

そろそろSparkを使いたくなってきたのでここ2週間ぐらいで一気に読みました。一言で言うと非常に読みやすかったです。一部わからなかった所はありますが、そちらは実際にサンプルコードを見たり動かしたりすれば分かるだろうなという感じでした。

Hadoop 第3版のようにアーキテクチャの詳細に触れているかと思っていたのですが、インフラやアーキテクチャ寄りのことはあまり書いてなくて、Sparkを使ってアプリケーションを構築する人向けの本という印象でした。そもそもページ数も本編で240ページ程度しかなく、更にサンプルのソースコードPythonScalaJavaで3通り書かれていることもあり、実際にはもう少し薄く感じました。とはいえ、記録によると一通り読むのに5時間近くかかってましたが。。w

とりあえずSparkの使い方を押さえるという意味では非常に有用だと思いました。次はApache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)を読んでみるつもりです(読みました)。

なお、元々Hadoop周りを触ったことがない場合はアーキテクチャ周りについてはSparkを実際に使いながら調べていくという方針で気にせず読んだ方がいいのかなとは思いました。私自身は仕事でMapReduce Javaを使ったアプリケーションを書いていた時期がありますし、Sparkの概要については別途学習していてRDDや系統グラフも知っている状態でした。逆にSparkのAPIとかアプリケーションの書き方を知らない状態でした。ですので、本書に詳細が書かれていない範囲についての事前知識があったので読みやすかったというのはあると思います。

ちなみに、「11章 MLlibを使った機械学習」に書いてあることが6割ぐらいは分かるようになっていて、この1年ぐらいで機械学習周りの知識と経験がそれなりに付いたんだなーとちょっと感動してましたw