シーケンスリードのペアを自動検出し、サンプル名付きでリスト化するPythonプログラム

2024年12月13日 11:29

🛠️ プログラムの機能概要

• 自動ファイル検出:

• _R1 または _1 を first read として検出

• _R2 または _2 を second read として検出

• サンプル名の自動付与:

• 各リードの絶対パスの前に フォルダ名をサンプル名として1列目 に追加

• フォルダ名に - を含む場合は _ に変換

• 出力形式:

• ファイル名はフォルダ名_output_reads.txt

• 出力内容はタブ区切り形式

1. プログラムの保存:

上記リンクからプログラムをダウンロードし、list_reads_with_sample.py として保存します。

2. プログラムの実行:

ターミナルまたはコマンドプロンプトを開き、次のように実行してください。

python list_reads_with_sample.py /path/to/your/directory

ファイル名: sample_data_output_reads.txt

sample_data	/path/to/sample1_R1.fq.gz	/path/to/sample1_R2.fq.gz
another_sample	/path/to/another_R1.fq.gz	/path/to/another_R2.fq.gz

このPythonプログラムを使えば、NGSデータの整理が効率化され、手作業のファイル整理が不要になります。自動化によって時間を節約し、データ解析をよりスムーズに進めましょう！