研究データはどうやって管理している?
調査研究を行った結果を論文にまとめますが、皆さん、研究データはどうやって管理していますか?
先日、研究データのオープン化に関するセミナーに参加しましたので、そこでの学びをまとめようと思います。
参加したセミナーは以下です。
2020年8月24日 J-STAGEセミナー(Zoomによる無料セミナー)
「ジャーナルから見た研究データ:研究データ公開の意義」
研究データとは?
まず、念のため研究データの定義を確認しましょう。
研究データとは研究の過程で、あるいは研究の結果として収集・生成される情報である。仮説検証に使用されたり、結論を導くための根拠となる。また、後に研究結果が正しいかどうかを確認するために使用されることもある。(国立情報学研究所)
研究データの公開が必要となっている背景
昨今、研究データの公開が必要と言われる背景は、研究不正の防止や研究の透明性の担保といったことに加え、オープンサイエンスやデータ駆動型研究の潮流もあります。海外では、ジャーナル投稿、研究費の獲得のために研究データの公開が必要とされていることも多く、研究の仕方についても二次データ分析が一般化し、データの公開や共有に関するポリシーの整備がジャーナルで進んできているようです。
日本国内では、社会調査データアーカイブの共有など、1960年代から整備されていますが、研究機関を介してのデータ共有であり、オープンなデータ管理のための情報インフラ整備は遅れている状況です。海外研究者との共同研究機会の喪失などが心配されています。
日本ではどんな対策を考えているのか
JST(科学技術振興機構)によると、2020年3月より、J-STAGE Data試験運用中ということです。
J-STAGE Dataは、J-STAGE登載誌を対象とした論文根拠データ、記事を補足する図表等のデータ公開用プラットフォームで、登載データにはDOIを永続的付与し、オープンアクセス(無料アクセス、二次利用を認める範囲について明記あり)を方針としているとのことです。
データの例:
調査・観測・実験で得られたデータセット、表(スプレッドシートの形式),図(写真、グラフ、静止
画像)、動画(ビデオ、音声、3D表現)、ソフトウェア(研究成果としてのコード)、プロトコル(研究
、実験、解析、調査、検査等に用いるもの)、ポスターセッション資料、プレゼンテーション資料(スライド、口頭発表等)
DOI(Digital Object Identifier)
Web上の電子文献と一対一に対応しているコード
(商品に対するバーコードや、書籍に対するISBNコードのようにコードがあれば対象文献を特定できます)
また、国立情報学研究所 (Nii RCOS) にて以下のデータ管理基盤の整備を進めています。
クラウド(JAIRO Cloud)を活用したデータ管理の仕組みを構築、研究データは国際規格であるDDI(Data Documentation Initiative)に沿って、メタデータの整備が必要、東京大学、一橋大学、慶應大学などいくつかの大学、研究機関にて取り組んでいるようです。
これにより、CiNii(サイニィ)だけでなく海外の検索サイトからのアクセス、検索が実現する予定です。
CiNii(NII学術情報ナビゲータ[サイニィ])
論文、図書・雑誌や博士論文などの学術情報で検索できるデータベース・サービス
面白いのは、オンライン分析システム(2022年公開予定)で、JupyterHubが用意され、研究データだけでなくPythonやRなどの分析プログラムのアップロードと利用が可能になるそうです。
JupyterHub
ブラウザからアクセス/実行できるユーザ認証機能つきJupyterサーバー
Jupyterプロジェクト
複数の言語にまたがって対話的な処理実行を実現するためのサービスやOSSを開発するためのプロジェクト
https://github.com/jupyter
https://jupyter.org/index.html
人文学社会科学データは、2021年4月公開予定だそうです。研究データは個票データとして管理され、プライバシー情報の取り扱いには十分に注意が必要ですので、研究者番号を利用するなど、データポリシーも同時に整備され、制限公開の考え方が適用されます。
実験技術開発の研究データ
理化学研究所で実験技術開発をされている方の話が興味深かったです。
技術開発者の場合は、1つの問いに拘って長年それを解くための研究を続けるスタイルではなく、徐々に関連する領域へ広げて研究を進めることが醍醐味だそうです。
まずある技術をPOC(技術検証)論文として公開し、規模拡大(実働・技術移転)をし、次に応用論文を執筆するという流れになるのですが、この規模拡大フェーズには非常にコストがかかるため、次の開発と応用のバランスをとるためにもデータの公開が必要になるとこのことです。
論文では研究データをDOI(Digital Object Identifier)化して自己参照するようにしているそうです。
また、論文には必須ではないプロトコル(例:実技の動画や手順、良くある問い合わせ回答(FAQ)など)をWeb公開するそうですが、GitHubのようなデファクトが無いようです。
GitHub
GitHub(ギットハブ)はソフトウエア開発者向けのウェブプラットフォーム
ソースコードをホスティングし複数人のソフトウエア開発者と協働してコードをレビューしたり、プロジェクトを管理しつつ開発を行うことがで
技術開発の研究データ公開のメリットとデメリット
実験技術開発における研究データ公開は良いことばかりでもなく、特許や企業のビジネスなどの利権に関わる部分とのバランスが難しそうです。
メリット
1.発信する人間に情報が集まる。
2.応用例を増やすための規模拡大で、技術移転のコストを下げる。
3.方法が使われ、引用・評価が高まる。成果になる。
デメリット
4.特許などに影響がないように考慮。企業を通じた社会実装に影響の可能性。
5.プロトコルの文章化や映像化などにコストはかかる。
6.プロトコル形式のデファクトスタンダードは今は決まってない。今後も模索必要。
まとめ
日本の研究データ管理は海外から遅れをとっているようですが、研究データの公開により平均引用率が25 %増加する(Colavizza, 2020)ということですので、システム的な整備が進んでいく今後は、研究機関や研究者自身の意識改革と行動変容がより求められるのではないかと思いました。
Ref.) Colavizza, 2020, https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0230416