マガジン

最近の記事

Noteで数式が書ける

ようになったと聞いて4年ぶりにやってきました。 数式記法の使い方 $$ \begin{align*} q &= xW_q, & k &= xW_k, & v &= xW_v \end{align*} $$ $$ \begin{align*} \text{score} &= \frac{qk^T}{\sqrt{d_k}} \\ \text{Attention}(q, K, V) &= \text{softmax}(\text{score})v \\ \text{MultiH

    • 論文やニュースの共有・議論に使っていたG+が終わるがどこに移行すればよいか

      ラボ内で、ニュースや論文情報を共有して、議論するプラットフォームとして、Google+を利用していた。ラボ内のG+では、業界内の最新論文の共有と議論、ライバルからの論文の批評、便利な実験試薬やソフトウェア情報の共有などを、個々人が自発的な投稿する場として活躍している。 もう少し抽象化すると興味のあるURLをシェアして、それについて議論するような場だとも言えるかも。URLがなく議論する場合はslackが使われている。G+は返答や閲覧の義務もなく、slackやメールのように業務

      • 俺に必要なゲノムブラウザ案

        「俺」に必要なゲノムブラウザについて考えてみる。ほかの人に必要かは知らない。ゲノムブラウザとはゲノム情報とともに解析データや公共バイオデータベースのデータを閲覧するためのソフトウェアのこと。 状況RNA-SeqとChIP-Seqのデータ解析が主。多型解析とかリシーケンスとかメタゲノムは知らない。ラボ内イントラにあるPCクラスタでデータ解析している。シーケンス実験手法を開発していたり、解析手法やパイプラインを開発していると、データを数値としてサマライズするだけでなく、locu

        • [いつか書く] たくさんの計算をたくさんの計算機で行う

          NGSデータ解析のためのコンピュータ入門シリーズ第2段。 プロセスとスレッドの違い。ジョブスケジューラの使いかた。CPU core数とスロットの指定。ジョブは小さくたくさん。たくさんジョブを投げるときはプライオリティを下げておく。ディスクIOの節約。パイプを駆使してなるべくオンメモリ計算、出力は圧縮しながら書き込む。NFSとIO。iostat, nfsstat など。

        マガジン

        • LabHacks
          1本
        • bioinformatics
          3本

        記事

          大きなデータファイルがオリジナルと同一かを確認する

          note.mu の使い方に迷っていたところですが、次世代DNAシーケンサ(NGS)のデータ解析初心者に聞かれたことを淡々と書くのはありかも。特にコンピューティングについては基礎的すぎて、NGS解析という文脈で整理されていないので書く価値があるかもしれません。早速、最近聞かれたことを書きます。 外付けHDDで数TBのデータが *.tar.bz, *.tar.gz などで送られてくるみなさん、こんばんは。受け取ったデータが解凍できない、自分の計算機にコピーしたけど解凍できない、

          大きなデータファイルがオリジナルと同一かを確認する

          自分に関連した分野の論文を追い掛ける方法

          前提: 生命科学分野(とそれに関連するデータサイエンスまわりにも一部共通)。個人的な見解。 1. Push型 興味のある論文が自動的に集まる環境を作る 1.1. Google Scholar Alerts を使う http://scholar.google.com/scholar_alerts?view_op=list_alerts&hl=en シーケンス法や追い掛けたい著者の名前などのキーワードを登録しておく。関連特許や会議録、博士論文、プレプリントサーバもひっかかるの

          自分に関連した分野の論文を追い掛ける方法