2014-08-11

Linuxのプロセス名とは

ちょっと前の話なんですが、職場でZabbixの監視にプロセス名とコマンドラインが使えて、psコマンドでコマンドラインはとれるけどプロセス名はどうするんだとなりました。結局、同僚から/proc/${pid}/statusに入ってるNameでいいと聞いたのですが、もっと簡単に取れる方法は~~ないのでしょうか。。~~ありました！。ちなみにWindowsはwmicコマンドで両方一気に取れました。

Linux

2014-08-11訂正： psコマンドでまとめて取れました。 @heroweenさんありがとうございます！

ps axww -o comm,args

~~まずはコマンドライン。psコマンドで取得できます。~~

ps auxww | grep キーワード

~~次にプロセス名は/procで確認できましたが、psコマンドと同様にキーワードから取得する方法はないんでしょうか。。~~

grep Name /proc/プロセスID/status

実践機械学習〜レコメンデーションにおけるイノベーション〜

実践機械学習〜レコメンデーションにおけるイノベーション〜を読みました。60ページぐらいで1時間もかからず読むことが出来ます。内容は機械学習のアルゴリズムの紹介ではなく、機械学習によるレコメンデーションの全体像を掴むことが出来るような内容でした。機械学習とはどういうもので、実際に構築するにはこういう要素が必要で、チューニングにはこういう手法があるといった内容です。そのため、機械学習に関する予備知識がなくともざっくり読めるのではないかと思います。

機械学習とレコメンデーションとは
正確さと開発コストのトレードオフを意識する必要がある。
言動ではなく行動が重要。好みなどを回答するのは一部のユーザーであり、既に偏っている。そうではなくて、各ユーザーの実際の行動（参照ページ、リンクのクリック、スクロールなど）が重要であり、それらの情報を収集できるようにWebサイトを作っておく必要がある。
履歴マトリクス、共起マトリクス、インジケーターマトリクス
- インジケータマトリクスはMahoutのRowSimilarityJobを利用して作成する
レコメンデーションエンジンの実装にSolrを利用する。
- ドキュメントのフィールドに共起インジケータを追加することでSolrクエリの結果をそのままレコメンデーションデータとして利用できる。
音楽レコメンダーを例に実装の詳細について解説
- ソースコードは公開されていない模様。
ディザリングとアンチフラッド
マルチモーダルとクロスレコメンデーション

原書であるPractical Machine Learningも入手していたんですが、結局読まずにいたら日本語訳版も無料で公開されたので読んでみました。ありがたいはなしです。あと、先日のHadoop Conference Japan 2014でも本書に関するセッションがあったようです。動画とスライドが公開されています（このセッションも興味があったんですが、Prestoの方に参加しました）。

個人的にヒットしたのはどこまで正確さを求めるかという部分でした。

そのための重要なスキルは、「良いというのは、どのくらい良いのか?」という質問に答えることができる、というスキルです。

最近、仲間内でMahoutイン・アクションを読み合っているのですが、そこでも正確さの話が出ていて、その値はいいのか悪いのかみたいな話がありました。本書を読んで、自分自身の過去の経験も振り返り、正確さは本質ではないのだなーと思いました。結局、どれほど値が良くても、それをビジネス的に活かす部分まで繋げられていなければ、単に値がいいけどそれで？という話になるなーと（もちろん、モデルができていて、正確さを1%向上すると利益が0.5%向上するみたいなケースは絶対額にもよりますが正確さを上げることにリソースを割いた方がよいと思います）。

あと、RowSimilarityJobでインジケータマトリクスを作成するには「ログの対数尤度比検定(log likelihood ratio test = LLR)」を利用すると書いてあったのですが、これは具体的にはRowSimilarityJobクラスを実行する際の引数として--similarityClassnameオプションを指定する際にDistributedLoglikelihoodVectorSimilarityクラスを指定するということを指すようです。最初にmahout 0.5のRowSimilarityJobのJavaDocを読んだ際に--similarityClassnameオプションを見落としてて、どうやってインジケータマトリクスが作れるのか理解できずに1時間ほどググったりして悩んでましたorz（最終的にこのMLにたどり着いて複数実装がありそうなことに気づき、ローカルに入れていたmahoutのソースを確認したらDistributedVectorSimilarityインタフェースの実装が大量に見つかりました。。）

ちなみに、本書を読んで一番良かったのは、このブログを書くために色々調べたり、振り返ったことだと思います。やはりブログを書くのは重要ですねw

2014-07-13

はてなブログに引っ越しました

いまさらなんですが、はてなブログに引っ越しました。
http://n3104.hatenablog.com/

何回か書いてみてからどうするか決めれば良いと思っていたので、実際には3月末からはてなブログ側で書いています（といっても、この日記を書く時点で3エントリーしかありませんが）。とりあえず暫くははてなブログで書いてみる予定です。

2014-06-05

RDS for MySQLでEvent Schedulerを利用する

結論から書くと、Parameter Groupsでevent_schedulerを[ON]にするだけです。
http://stackoverflow.com/questions/14940910/creating-mysql-events-in-amazon-rds

event_schedulerのデフォルトは[engine-default]になっていました。この状態だと[OFF]扱いのようです。

mysql> SHOW GLOBAL VARIABLES LIKE 'event_scheduler';
+-----------------+-------+
| Variable_name   | Value |
+-----------------+-------+
| event_scheduler | OFF   |
+-----------------+-------+
1 row in set (0.01 sec)

Event Schedulerはその名の通り、SQLを任意のタイミングで実行できるスケジューラーです。こんな機能あるんですね、知りませんでした(ﾟдﾟ)！
http://dev.mysql.com/doc/refman/5.6/en/events.html

cronのような一定間隔の実行も出来ますし、特定の日時に一回だけの実行もできます。どんな感じで設定するかはCREATE EVENT Syntaxを見るとイメージがわくと思います。 http://dev.mysql.com/doc/refman/5.6/en/create-event.html

ちなみに、event_schedulerがOFFでもイベント自体の登録は可能でした。あと、Event Schedulerは専用のスレッドが動作するので SHOW PROCESSLIST\G で存在を確認できたりします。
http://dev.mysql.com/doc/refman/5.6/en/events-configuration.html

既に登録済みのイベントは SHOW EVENTS\G で確認したり出来ます。 http://dev.mysql.com/doc/refman/5.6/en/show-events.html

参考
[MySQL] イベントスケジューラの起動と停止 - グローバル変数event_scheduler | idocsq.net

※一部の方へ
あっちのブログに書くのは結構大変なので、さらっと書けるんだけどEvernoteに貯めとくのもな～という内容はこちらのブログに書いていくつもりです。

2014-03-30

データサイエンティスト養成読本を読みました

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

作者: 佐藤洋行,原田博植,下田倫大,大成弘子,奥野晃裕,中川帝人,橋本武彦,里洋平,和田計也,早川敦士,倉橋一成
出版社/メーカー: 技術評論社
発売日: 2013/08/08
メディア: 大型本
この商品を含むブログ (12件) を見る

読みました。発刊当初は興味があったのですが、結構内容が重いかと思って読んでいませんでした。やはりデータ分析周りは興味があるので思い切って読んでみたら、思ったよりさらっと読めた感じですｗ以下が感想になります。

全体的にデータ分析の流れや考え方について記述された記事が多い。RやPythonという言語の違いや、記事の切り口によって説明する角度が異なるだけなので、データ分析の流れは基本的に変わらないのだと理解した。
特集2の2は前職の広告配信システムを開発していた頃を思い出す部分があり懐かしかったｗ
この本を読んですぐに実務に使えるという本ではなく、あくまでもデータ分析周りの地図を作るために利用する本だと思った（そもそも1冊読むだけで実務ができるわけがないですがｗ）。記事によって参考文献も書かれていてよかった。

ちなみに、書かれている内容について全て理解できているわけではなくて、概要レベルでつかめたものばかりです。そもそも全部理解できるなら読む必要ないですしｗあとは、前職自体からデータ分析周りについて勉強を始めましたが、やっと雰囲気はつかめるようになったかなという感じです。去年の11月に転職してから忙しすぎて本を読めたり出来ていなかったのですが、今後はデータ分析周りも含めて勉強を再開していければと考えています。RやPython、アルゴリズム周りについても気長に取り組んでいくつもりです。

2013-07-24

Fork/Join Framework についてちょろっと調べてみた

同僚と Fork/Join Framework について話す機会があり、ちょっと気になったので調べてみました。ちなみに、ソースは jdk1.7.0_25 です。

native なのか Java なのか？

native とかは使わないで普通に Java の Thred クラスを利用して実装しているようでした。そのように判断した理由は以下の通りです。

ForkJoinWorkerThread 自体は Thread クラスを継承している
ForkJoinPool#invoke から RecursiveTask#compute までのソースを見た感じ、普通に Java のコードだった

ForkJoinWorkerThread の生成タイミング

ForkJoinPool#invoke の中で ForkJoinWorkerThread を生成しているみたいでした。

registerWorker(ForkJoinWorkerThread) : int - java.util.concurrent.ForkJoinPool (3 matches)
	ForkJoinWorkerThread(ForkJoinPool) - java.util.concurrent.ForkJoinWorkerThread
		newThread(ForkJoinPool) : ForkJoinWorkerThread - java.util.concurrent.ForkJoinPool.DefaultForkJoinWorkerThreadFactory
			addWorker() : void - java.util.concurrent.ForkJoinPool
				signalWork() : void - java.util.concurrent.ForkJoinPool
					addSubmission(ForkJoinTask) : void - java.util.concurrent.ForkJoinPool
						invoke(ForkJoinTask)  : T - java.util.concurrent.ForkJoinPool

ちなみに、 ForkJoinPool#registerWorker まで書いているのはこの中で ForkJoinPoolクラスの workers フィールドに新しく生成した ForkJoinWorkerThread のインスタンスを代入しているように見えたためです。なお、 workers フィールドの初期化は ForkJoinPool のコンストラクタの中で行なっているようで、引数なしのコンストラクタを利用した場合はプロセッサ数の 2 倍の数を生成するようでした。

    public ForkJoinPool(int parallelism,
                        ForkJoinWorkerThreadFactory factory,
                        Thread.UncaughtExceptionHandler handler,
                        boolean asyncMode) {

// ... 中略 ...

        // initialize workers array with room for 2*parallelism if possible
        int n = parallelism << 1;
        if (n >= MAX_ID)
            n = MAX_ID;
        else { // See Hackers Delight, sec 3.2, where n < (1 << 16)
            n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8;
        }
        workers = new ForkJoinWorkerThread[n + 1];

引数なしのコンストラクタ

    public ForkJoinPool() {
        this(Runtime.getRuntime().availableProcessors(),
             defaultForkJoinWorkerThreadFactory, null, false);
    }

ForkJoinPool#invoke から RecursiveTask#compute の呼び出し階層

以下の様な感じで RecursiveTask が呼ばれてました。 work-stealing の実装部分は読んでいませんｗ

compute() : V - java.util.concurrent.RecursiveTask
     exec() : boolean - java.util.concurrent.RecursiveTask
          doJoin() : int - java.util.concurrent.ForkJoinTask
               join() : V - java.util.concurrent.ForkJoinTask
                    invoke(ForkJoinTask)  : T - java.util.concurrent.ForkJoinPool

ExecutorService との違いは？

work-stealing で実装しているので処理によっては早い。
- ForkJoinPool のクラスコメントに説明がある。
  - ForkJoinPool (Java Platform SE 7 )
- 本家チュートリアルの方がより丁寧に書いてある印象です。
  - Fork/Join (The Java〓 Tutorials > Essential Classes > Concurrency)
- ちなみに、論文？もあるんですね。詳細に理解したい方には良いかもしれません。
  - A Java Fork/Join Framework(PDF)
櫻庭さんの記事が分かりやすい。
- （4/7）Java技術最前線 - Java SE 7徹底理解　第2回細粒度の並行処理 - Fork/Join Framework：ITpro
- タスクを分割統治法で定義するのがポイント。そうすることで、粒度の細かなタスクがジョブキューに積まれ、複数のスレッドによって効率よく処理される。効率が良いというのは ExecutorService で複数の粒度の大きなタスクを実行すると、一番処理時間の長いタスクの待ち合わせで時間を食ったりすることに対して効率がいいという意味。

2013-07-25 追記

最初にいきなり native なのか Java なのかと書いてありますが、これは全く予備知識がなかったためです。ただ、たくさんのスレッドを利用するのだろうなという漠然としたイメージしかなく、同僚が native 使ってるかもと言ってたのでそこから調査しました。
分割統治法を全体としており、再帰処理で分割する、かつ、 fork で並行処理するので幅優先探索を利用する処理に向いてそうという理解です。
- 深さ優先だとシングルスレッドと変わらないはずなので。
- 手軽に使えるのはいいですが、計算量の事前計算が必要だとは思いました。結局、タスクが大量に生成されるわけで、末端まで行かないとタスクが減り始めないので。
  - そういう場合は、プロセスで利用可能なメモリサイズを確認した上で、処理可能なサイズになるまでは自前でタスク分割と実行の制御を入れればいいんでしょうが。
MapReduce は分割統治法には向いてないのかなとは思いました。まぁ、処理時間を気にしなければ計算量を無視出来るオーダーが増えるので、そもそも比較すること自体がナンセンスですがｗ
- 結局、 MapReduce って fork & join の深さ 1 ということなので、深さが 2 以上だとジョブ自体のループを実装することになり、面倒くさそうだなぁと。
再帰なのでスレッドのディスパッチコストは低いのかなと思います。結局、末端からタスクが処理されるので、親は fork した子の処理が終わるまでスレッドの割り当てが戻ってこないので。 I/O 待ちでスレッド同士を切り替えるみたいな動きはあまりないという理解です。

2013-05-19

GitHub と Jenkins の連携でハマった

社内的に GitHub に移行することになったので、 GitHub のリポジトリに pull request が merge されたタイミングで Jenkins のプロジェクトが実行されるように設定しました。設定手順は GitHub Plugin - Jenkins - Jenkins Wiki と Trigger Jenkins builds by pushing to Github | Four Kitchens が参考になります。 1 点ハマったのが GitHub の Post-Receive Hooks の所で、 Basic 認証に対応していると書いてあったのですが、なぜか手前の Apache で 401 の認証エラーとなりました。結論は Apache の設定ファイルで Basic 認証ではなく Digest 認証にしていたことが原因でした。。既存の設定は HTTP のみだったのですが、そこは Digest 認証の設定があり、ちゃんと内容を読まずにコピーして HTTPS の設定を書いたことが原因でしたorz

Jenkins は GitHub Plugin を利用した。
Jenkins の手前に Apache があり、そこでは HTTPS で Basic 認証の設定を行った。
- GitHub の Post-Receive Hooks は Basic 認証には対応しているが Digest 認証には対応していない模様。
- オレオレ証明書でも大丈夫でした。
GitHub 側の Post-Receive Hooks は WebHook URLs でも Jenkins (GitHub plugin) でも問題なかった。
- 意味的に分かりやすいので Jenkins (GitHub plugin) を利用する設定にした。
- どちらも設定後にテスト実行のボタンがあるので、実際にリポジトリに push しなくても疎通テストが出来て便利だった。
- 設定する URL は https://ユーザー名:パスワード@Jenkinsのホスト名/github-webhook/ という URL になるんですが、 Jenkins の Github Plugin は GitHub が POST する JSON の中からリポジトリの URL を取得して、 Jenkins の個々のプロジェクトに設定されているリポジトリの URL とマッチングを掛けるという実装のようです。