![見出し画像](https://assets.st-note.com/production/uploads/images/79616815/rectangle_large_type_2_fbc1a59b910070100b78907fce019274.png?width=1200)
Rを使ったクラスタリング樹形図の作成手順と注意事項① データの下準備
はじめに
今回は次世代シークエンサーなどで取ってきた発現データを使ってクラスタリングの樹形図をR上で作成する方法をまとめました。
特にクラスタリングは発現の似ている遺伝子や組織を同定するための手法であり、ゲノム解析を行う上で必要不可欠なステップになります。
この記事ではその流れと注意事項を説明していくのですが、実際にやりながらの方が分かりやすいと思うので下にサンプルデータを用意しました。ダウンロードしてこの記事にある手法を読みながら再現してみてください。ちなみに数値は乱数を使って生成しているので本物の遺伝子発現データとは少し性格が異なるかもしれません。
![](https://assets.st-note.com/img/1653874651366-sg5vC2xUmc.png)
※この記事で紹介するのはあくまで処理の"一例"なので、別のコマンドを使って行うことも可能です。
データの加工
Rはある種のプログラミング言語なので、Excelデータをそのまま突っ込んでも上手く解析してくれません。(これは僕の知識が不足しているだけで、どうにかすればそのままでも解析できる可能性は十分にあります。)
そのため、Rが読み取れる形に加工する必要があります。必要な作業は4つです。
データを左上に寄せる
重複データを削除する
R1C1参照形式にする
CSVファイルとして保存する
一つ一つ説明します。まず"データを左上に寄せる"という作業ですが、これはRがデータを読み込むときに「何行の何列目」を指定されないと自動的に1行1列目から読み込む仕様によるもので、もちろんちゃんと指定してあげれば解析してくれるのですが、先に左上に寄せておいた方が無難です。今回のサンプルデータは予め左上に寄っているので次のステップに進みます。
次は"重複データを削除する"ということですが、たとえば”Gene5"という名前の遺伝子が何らかのミスで2回データに入ってしまっている場合、R上で動かしたときに重複していることに対する警告が表示されてしまい先に進めません。なのでExcelの"データ"タブから”重複の削除"を選択して消しましょう。今回は重複がないのでこのまま進みます。
次は"R1C1参照形式にする"という作業です。結論から言えばこの形式でないと読み込んでくれないのと、Excelのデフォルト設定では「A1形式」が採用されているため変える必要があります。変更の仕方は「ファイル」→「オプション」→「数式」→「数式の処理」→「R1C1参照形式を使用する」でできます。R1C1形式の詳細は以下の記事を参照してください。
最後は"CSVファイルとして保存する"です。Excelファイルはデフォルトの設定ではxlsxファイル形式で保存されますが、今回の方法ではCSVファイル形式でないと動いてくれないです。これは保存するときに「ファイルの種類」を「CSV(コンマ区切り)」にすればOKです。
これでデータの準備ができたので次はR上で実際にクラスタリングしていきます。次の記事で説明していきます。