- 運営しているクリエイター
2014年5月の記事一覧
[いつか書く] たくさんの計算をたくさんの計算機で行う
NGSデータ解析のためのコンピュータ入門シリーズ第2段。
プロセスとスレッドの違い。ジョブスケジューラの使いかた。CPU core数とスロットの指定。ジョブは小さくたくさん。たくさんジョブを投げるときはプライオリティを下げておく。ディスクIOの節約。パイプを駆使してなるべくオンメモリ計算、出力は圧縮しながら書き込む。NFSとIO。iostat, nfsstat など。
大きなデータファイルがオリジナルと同一かを確認する
note.mu の使い方に迷っていたところですが、次世代DNAシーケンサ(NGS)のデータ解析初心者に聞かれたことを淡々と書くのはありかも。特にコンピューティングについては基礎的すぎて、NGS解析という文脈で整理されていないので書く価値があるかもしれません。早速、最近聞かれたことを書きます。
外付けHDDで数TBのデータが *.tar.bz, *.tar.gz などで送られてくるみなさん、こんば