見出し画像

ピュイが語る!COTEN世界史データベース | 巨人の肩に乗るために。著作権と創造性

世界史データベース開発チームにヒアリングした内容をすべて忘れてしまった千咲。 そこに現れたのは、COTENの「あの鳥」だったーー!?

前回の記事はこちら↓

ちさき(以下、ち):世界史データベースってさ、いろんな書籍から、データを集めて作っているじゃない。

ピュイ(以下、ピ):そうだね。

ち:世界史データベースの必要性や意義は私もすごく共感するんだけど、ちょっと気になるのが……著作権とかって大丈夫なの?
世界史データベースを作ることは、元々の書籍を作った人への著作権侵害にならないのかなって。

ピ:今日はそのあたりについて話していこうか。


データ入力作業って具体的にどういうステップ?

ち:まだあまり詳しくわかっていないんだけど、世界史データ入力ってざっくり言うとどんな作業をしているの?

ピ:まず大量に本を買うよね。で、本の内容を精査し、データ入力のためのルールをShanyangチームが整備する。
その後、データ入力者が決められたルールに従って、スプレッドシートに情報を入れていくよ。

ち:あぁ、弟子時代に、私の家に世界中の教科書が大量に届いたこと、あったなあ……。

世界の教科書シリーズが届いた際の写真。このような本が日本語で出版されていたことがまず驚きだよね。

著作権で保護されるのは「創作性がある表現」

ち:著作権侵害って、他人の創作物 = 著作物を、本人の許可を得ずに勝手に利用することだよね。

ピ:そうだね。気をつけるべきところは、著作権で保護されるのは「創作性がある表現」であるということ。
だから、何が「創作性がある表現」で何がそうでないのか判断し、それぞれに合った対応をすることが大事になってくるよ。

ち:線引き、めっちゃ難しそう。
私の感覚だと、例えば本って、一冊単位で見たら基本的に全部「創作性がある表現」だよね。一ページ分の文章でも「創作性がある表現」だと思う。では、一文だけならどうなんだだろう。
それが歴史的事実についての文なのか、芸術的な表現なのかでもまた違うのかな、とか。

ピ:詳しく説明するね。COTENが世界史データベースのために利用するのは、書籍に記載されている「歴史的事実」の収集に限っている。
そのために書籍引用のルールを定めているんだ。

ピ:より正確にいうと、例えば世界史の資料集という括りで見ると、その選出やレイアウト、絵図などには創作性があるけど、歴史の出来事を端的に記述したひとつひとつの言葉(例: アインシュタイン「特殊相対性理論」発表)は、ありきたりな表現で独創性があるとは考えられにくい。
ひとつひとつの端的でありきたりな表現を扱ってデータベースを作成しているから、著作権侵害にはならないと考えている。

ち:確かに、「平安京へ遷都」「A国がB国に併合される」という一文ずつが独創性のある表現だとは考えにくいよな。デュシャンじゃあるまいし……。

画像や、Wikipediaのデータはどう扱っている?

ピ:一方、文章量が多いEntityの概要文や、出来事のエピソードのデータは独創的な表現が発生する可能性が高いので、著作権を保護しつつデータを集める方法を考えていく必要があるね。
画像を取り扱う場合も、クリエイティブ・コモンズやパブリックドメインのもののみ、適切な表示を出して扱うことで著作権の保護に努めている。

ち:とにかく、相当気を使ってやってるんだね。こんなにも権利のことを考える必要があったとは。

ち:あと質問。前回の記事で、最初の段階ではWikipediaのデータも使うって言ってたよね。それも権利関係は大丈夫なの?

ピ:Wikipediaデータの二次利用については、Wikipediaによってライセンスが定められているよ。それに従えば、営利目的での二次利用もOK。

ち:そっか、ルールに従って使えば大丈夫なのね。
当然のこととして法律やルールは守らないといけないし、個人的な感覚としても、今まで色んな分野で知を蓄積してきた沢山の個人へ、リスペクトを払っていきたいよねー🍵

データ入力ルール策定における創造性

ち:世界史データベース開発チームが、権利関係にとても気を遣って開発を進めていることはよく分かった。

ピ:よかった。もう一つ伝えたいのは、いわゆる「端的でありきたりな表現」を使わせてもらっているからといって、歴史データの入力ルール整備や入力は全然、無味乾燥な作業ではないんだよね。
真摯なクラフトマンシップとでも言うべき心構えが必要になる。

ち:世界史データベースは最終的には、情報自体にかかっているバイアスまで示せているような、信頼度の高いものを目指していくわけだけど。「データを入力するためのルール作り」というプロセスには、職人魂みたいなものが必要、というイメージね。なんとなく分かるけど。

ピ:例えば、いわゆる学校で配られるような「世界史の資料集」って実はすごいんだよ。
特に巻末年表みたいな、図のページ。人間の脳の理解に依存した書き方をしていることが、いざデータベースを作ろうとするとよくわかる。

ち:どういうこと……?

ピ:つまり、人間の脳って、資料集の記述ルールを理解していなくても、感覚的に年表情報を理解できちゃうんだよ。だから逆に、資料集の巻末年表に書かれていることを、いざ構造化されたデータで表現しようとするとめちゃくちゃ難しいんだよね。

ピ:例えば「A国がB国に併合された」という内容。紙上ではサラッと表現できているけど、この内容を構造化されたデータにした上で、UI上に再度表示することを考えると……。

資料集にありがちなこういう図(イメージ)。
実はデータで整理するのがめちゃくちゃ難しかったりする。

ち:あーなるほど、そういう系ね。具体的にどのくらい大変なの?

ピ:資料集で記述されていることを、データベースに厳密に格納しようとすると、書籍によるけど最低でも80種類以上の記述ルールを決めて入力をしないといけない。

ち:80?!そのルールに従いながらデータ入力し続けるの、めっちゃむずくない?私、絶対ムリ。

ピ:ルールに気を遣いながらデータ入力をするのがそもそも大変だし、ルール通りに入力したとして、それらを今度はUIでわかりやすく表示し直すには相当表示するためのロジックを作り込まないといけない。

ち:データ入力者の人たち、つくづく、すげえー。今度インタビューしてみよう。

ピ:もう一つの具体例で言うと、「時間データ」。たくさんの記述方法がある。

・紀元前〇〇年
・〇〇世紀後半
・〇〇年半ば
・〇〇年または××年
・〇〇年に始まり現在も続く
・〇〇年秋

などなど、他にもいっぱい。これらを一律のルールで矛盾なく整理・入力するのが難しかったりね。

ち:ああ、2つ具体例をもらって、分かったかも。
人間の脳がふわっと理解できちゃうことをデータできちっと再現するのが難しいのね。AIが日本画の余白を余白として認識できない、みたいな話と似た感じかなあ。

ピ:ほんと、こんなのばっかり。毎日地道な作業だよ。

ち:(この疲れよう……ピュイも、作業を手伝わされているのだろうか……)

ピ:まあ、楽しいけどね🐦


ここまでお読みいただきありがとうございました。
引き続きよろしくお願いいたします!

COTEN CREWに参加しませんか?
「個人CREW」として、COTENの活動を応援してくれる人を募集しています!ご参加はこちらから
・限定エピソードの配信
・COTEN RADIOをいち早く聞けるアーリーアクセス

「法人CREW」になって、企業のあり方を一緒に探求しませんか?ご参加はこちらから
・法人CREW限定のSlackコミュニティ
・COTENメンバーとの対談
・限定勉強会の開催

🌱 皆様へのお願い 🌱
現在、オウンドメディア試運転中です。
本格ローンチに向けて、ぜひ、皆様からの率直なフィードバックをいただければ幸いです。 ご意見・ご感想は
①「Twitterにてハッシュタグ #cotenmedia をつけてツイート」
https://coten.channel.io にチャットを送る
どちらかの方法でお願いいたします!