この記事は、「韓国が独立を意識する日」としている3月1日に、justiceforjapan(@justiceforjapan)さんのTWの記載で存在を知り、これは、当時の公式文書として、皆が簡単に読める様にしたいとの想いで、OCR化し、可読性を高めた記事として行くつもりで立ち上げました。
紹介文献の取得先
この文献の取得先は次となります。
国立公文書館デジタルアーカイブ
簿冊標題:単行書・八年陸乙七一・朝鮮騒擾経過概要
https://www.digital.archives.go.jp/das/image/F0000000000000013850
「朝鮮騷擾經過槪要」OCR文字化データ
目次
朝鮮騷擾經過槪要
目次
一、騒擾ノ起因 …………………………………… 一
二、騒擾ノ企畫 …………………………………… 二
其一 天道敎、耶蘇敎、佛敎徒等ノ聯盟 …… 二
其二 運動ノ著手 ……………………………… 三
其三 在外鮮人ノ關係 ………………………… 四
三、騒擾ノ經過 …………………………………… 四
其一 一般ノ經過 ……………………………… 五
其二 三月中ニ於ケル騒擾ノ槪況 …………… 六
其三 四月中ニ於ケル騒展槪況 ………………一一
其四 五月以降ニ於ケル騒擾ノ槪況 …………一六
四、騒擾間ニ於ケル在外鮮人ノ動靜 ……………一六
五、鎭壓ノ爲ノ處置 ………………………………一八
六、騒擾ニ關スル損害 ……………………………一九
一、騒擾ノ起因(ソウジョウ ノ キイン)
二、騒擾ノ企畫(キカク)
三、騒擾ノ經過(ケイカ)
四、騒擾間ニ於ケル在外鮮人ノ動靜(ドウセイ)
五、鎭壓ノ爲ノ處置(チンアツ ノ タメ ノ ショチ)
六、騒擾ニ關(カン)スル損害
(被害別表)
「朝鮮騷擾經過槪要」画像
以下に一頁ずつ、傾き補正とトリミング補正した、原本画像を入れておく、不要と判断したもの一部は省略。
表紙
目次1/2
目次2/2
1: 一、騒擾ノ起因
2: 二、騒擾ノ企畫
3
4: 三、騒擾ノ經過
5: 其一 一般ノ經過
6
7
8
9
10
11
12
13
14
15
16: 四、騒擾間ニ於ケル在外鮮人ノ動靜
17
18: 五、鎭壓ノ爲ノ處置
19: 六、騒擾ニ關スル損害
20
被害別表
あとがき
記事作成の動機
今の韓国の方の主観では、とても信じられる文献ではないとして、否定する向きはあるのでしょうが、公式文書とは、それを基準に内部の意思決定を行なう為に作成されるものです。従って嘘偽りの記録や見解を入れることは通常期待出来ることではありません。そのことを踏まえて、是非、当時の半島の国家の認識を主観脳ではなく「ヒトの大脳新皮質」内の脳内活動のみで客観視頂き、一読頂ければ有難く存じます。
今後の記事加筆の計画
目標としては、「韓国語と英語の機械翻訳」迄を考えていますが、何分古い文体の為、このままでは、当方が当てにする機械翻訳では概要把握が限界ですし、誤訳にもつながります。そこで、先ずはOCR文字化を今回行ない、それらの作業を手掛ける中で、OCRの誤読や当方のミスタイプを低減しつつ、そのデータはそのまま維持しつつ、日本の現代人が辞書を引かずに読める程度のルビ打ちを第一の一里塚として作業を進めます。
この作業は手作業ならば、限り無く修正箇所のバージョン管理の混乱が発生しますので、ルビ打ちする文字列とルビ付き文字列を対としたデータを基に自動処理を進めます。何分一人によるボランティア作業であり、一つの読みのルビ追加が、全体に及ぶ様にしなければ、その度に手作業での置換をしなくてはなりません。それを避ける為です。
「3.1独立運動」認識関係の筆者の課題認識
3.1独立運動は、韓国人には高揚感を抱くことの様だ。最初に自らの民族としての自尊心を最大の価値観として、全てを主観脳により、心地良いものに描くのだから、果てしなく史実とはかけ離れてしまう。
そもそも、3.1独立運動の切欠は、民族運動でも何でも無い。何しろ、「民族独立」の思想自体が、欧米国際政治上のプロパガンダに過ぎなかったからだ。
それに、かこつけて動いた団体が居た。そして、それを活用しようとした輩が煽った。それが現実だった。そして、プロパガンダを流した側は、それを視て、ほくそ笑んでいたのだ。
その意味で、韓国人は今も、プロパガンダの格好のターゲットなのだと想う。それを妨害する方法は限られている。理解出来る韓国人限定ではあるが、可能な限り当時の文献を、素で読んで貰うことだ。
その趣旨で、韓国人の言う所謂「3.1独立」を大正8年9月、陸軍省印刷の「朝鮮騷擾經過槪要」をOCRにかけて、誤変換を一通り修正して試た。また、完全とは言えないと想うが、ネット上の原本イメージを読むよりは、遥かに視認性も高く、且つ、翻訳への道をつなぐものになったものと想う。
TODO
誤謬訂正
初版には用字の問題も含めたら経験上最大で行数と同じくらいの誤謬箇所があると想定しています。
基本的には読めますが、誤った文章に成る場合もあり、今後の作業の中で、原本とするテキストデータを洗練させて行く
しかし、最終的には一行ずつ、一字ずつのチェック作業は必要になる。その為の縦書きPDFファイルも作成している。
まだ、初版段階は、ケアレスミスもあり、データ原本の精度は高くないので、そのファイル掲載は、初回は見送ります。
成果ファイルの公開
ルビ打ち
現代語訳
初めに必要なことは、新字体への置換ですね。これは簡単ですね。今は、逆に国際標準としての旧字(繁体字)に拘っています。海外の人に日本の新字を覚えろと迄は言えませんし、戦前の文献も日本の蓄積したものです。日本人なら、それに触れる機会を増やし、気軽に読める様に成ることも大切だと思うからです。
日本人に対しては殆ど不要ですが、文章の分割や句読点の付加等をルビ打ち完了後辺りから手掛けます。これは、次の諸国語別の機械翻訳の起点と成ります。
機械翻訳
自動化
画像の差替え
後で気付いたことながら、国立国会図書館デジタル側にもこの文献の映像が掲載されていた。同一文献たが、画質が良い。初版では、文字が潰れて判別がギリギリの推定だった最後の「被害別表」のみを併置した。処理時間はそこそこかかるので現状のまま当分捨て置くが、折をみて、差し替えたいとは思う。今からもう一度OCRからやり直す気には成れないし、それをする成果はもう多くはないだろう。難解な漢字は推定で意を確かめ確定したので恐らく略誤りは無いと考える。
履歴
2022-03-03 初版公開