BAM ファイルから遺伝子アリルを予測する試行錯誤日記2

ATGCをdummy データに変換するプログラム


はじめに

遺伝子解析やバイオインフォマティクスでは、DNA の塩基 (A, T, G, C)数値データ (1, 0) に変換することで、機械学習モデルにすぐ適用できるようになります。しかし、この変換作業は 手動では面倒 で、データの形式が複雑な場合は エラーの原因 にもなります。そこで、今回紹介するのが データ変換プログラム convert_data.py です!

このプログラムは、タブ区切りフォーマットの入力ファイル を処理し、アリル情報を数値データ形式 に変換します。

プログラムの使い方 🔧

1. 前提条件:

Python 環境が必要です。 (Python 3.x 推奨)

依存ライブラリ: pandas (インストールしていない場合は pip install pandas)

2. 入力データの形式

例: 入力データ (input_data.tsv)

chr	posi	Cultivar1	Cultivar2	Cultivar3	Cultivar4	Cultivar5
1	1234567	A	T	T	T	N
1	1234590	C	G	G	N	C
1	2234567	G	A	A	A	G

3. プログラムの実行方法:

次のコマンドをターミナルで実行します:

python convert_data.py -i input_data.tsv

4. 出力データの形式:

出力ファイルは、dummy_ATGC_input_data.tsv として保存されます。

例: 出力データ (dummy_ATGC_input_data.tsv)

chara_value	1_1234567_A	1_1234567_T	1_1234567_G	1_1234567_C	1_1234590_A	1_1234590_T	1_1234590_G	1_1234590_C	1_2234567_A	1_2234567_T	1_2234567_G	1_2234567_C
Cultivar1	1	0	0	0	0	0	0	1	0	0	1	0
Cultivar2	0	1	0	0	0	0	1	0	1	0	0	0
Cultivar3	0	1	0	0	0	0	1	0	1	0	0	0
Cultivar4	0	1	0	0	0	0	0	0	1	0	0	0
Cultivar5	0	0	0	0	0	0	0	1	0	0	1	0

いいなと思ったら応援しよう!