シーケンスリードのペアを自動検出し、サンプル名付きでリスト化するPythonプログラム
🛠️ プログラムの機能概要
• 自動ファイル検出:
• _R1 または _1 を first read として検出
• _R2 または _2 を second read として検出
• サンプル名の自動付与:
• 各リードの絶対パスの前に フォルダ名をサンプル名として1列目 に追加
• フォルダ名に - を含む場合は _ に変換
• 出力形式:
• ファイル名は フォルダ名_output_reads.txt
• 出力内容はタブ区切り形式
プログラムのダウンロード
⚙️ 使い方
1. プログラムの保存:
上記リンクからプログラムをダウンロードし、list_reads_with_sample.py として保存します。
2. プログラムの実行:
ターミナルまたはコマンドプロンプトを開き、次のように実行してください。
python list_reads_with_sample.py /path/to/your/directory
出力例:
ファイル名: sample_data_output_reads.txt
sample_data /path/to/sample1_R1.fq.gz /path/to/sample1_R2.fq.gz
another_sample /path/to/another_R1.fq.gz /path/to/another_R2.fq.gz
おわりに
このPythonプログラムを使えば、NGSデータの整理が効率化され、手作業のファイル整理が不要になります。自動化によって時間を節約し、データ解析をよりスムーズに進めましょう!
#Python #NGS解析 #シーケンス解析 #バイオインフォマティクス #Pythonプログラミング #データ解析 #自動化 #研究者のツール #Genomics #次世代シーケンシング #データ整理 #プログラム共有 #コードスニペット #Python開発