![見出し画像](https://assets.st-note.com/production/uploads/images/136775248/rectangle_large_type_2_724df2f40583ee2d4baddda6f9731dcd.jpeg?width=1200)
コーパス作成、地味な作業っすわ
4月に入ってから、ふと思い立って自前のコーパス(言語データの集合体)を作成しています。今回は、テュルク諸語を文単位で並列させてみたいという意図がありまして、手持ちの例の本をスキャンして読み取りながらテキストとして取り込んでいます。
…のですが、まあこの作業が地味で、そしてまた単調も単調で…
最初は意気込んで取り込むのですが、1時間くらいで飽きが来てしまいますのよね…!
いや~…猫の手を借りたい… 猫の手、どこかにないものでしょうか…
以前この作業に取り掛かっていた時期があって、実はすでにトルコ語、アゼルバイジャン語、クムク語、カラチャイ・バルカル語、キプロス・トルコ語までは完了しています。そして昨日、ようやく原文たるフランス語の読み込みも終わったところです。
ひとまずフランス語のテキストを文単位で区切って番号付けもしてみていまして、あとは各言語の対応する部分を並列させていこうと画策しています。この作業も、わりに苦労しそうな予感もあるのですが…
そういえば、こういう作業も含めて最近はエクセルをよく開くようになりました。こちらの形式にまとめておくほうが、何かとあとで利用できそうだということだそうで。
取り込んだテキストをどう利用していくか、同時進行で勉強していくことになるのですけどね…自分自身がどう利用しようかまだあまりわかっていないまま作業を進めていて、正直なところちょっと怖くもあります。
まあしかし、データベースとしてコーパスが出来上がったら出来上がったで、きっとなにかと役には立ちましょう。オレのカンがそない言うてますのよね…
あとは手持ちのテキストをデジタル化していく作業を少しずつやっていって、コンピュータ上で比較対照できる言語を増やそうと思っているのですが…手持ちのテキストだけでも、残っているのが
・タタール語(カザン・タタール語)
・キルギス語
・カザフ語
・ウズベク語
・トゥヴァ語
・サハ語
・カライム語
・カシュカイ語
・カラカルパク語
・イラン・アゼルバイジャン語(南アゼルバイジャン語)
・トルコ語(東トラキア方言)
・トルコ語(アンテプ方言)
・トルコ語(デニズリ方言)
・チュヴァシュ語
まだこんなに残っておるのか…
いや~…ゴールは遠いっすな…
特に、データとして利用できるようになるまでが非常に骨を折ることになりそうと予想される言語が、確実にこの中にいくつかあるのも悩ましいところです。
たとえばイランのアゼルバイジャン語は、表記が(当然のことながら)ペルシア文字なわけですね。そのまま取り込んでも単語を検索しづらいし、その単語ひとつとっても母音部分が何か(表記されていないことが多いのです)情報がないとやはり不便ですし。これこそ第三者の協力が必要な作業になってくるのかなと思います。
そんなわけで自分でできることは少しでも進めつつ、こういった作業を手伝ってくださる方をアルバイトで募らないといけないか…ということも考えている今日この頃です。
そういったことにお金を使えるうちに、なんとか…
いいなと思ったら応援しよう!
![吉村 大樹](https://assets.st-note.com/production/uploads/images/173281934/profile_953f1e6dd0436f4ca73e8e6926eb1fb7.jpg?width=600&crop=1:1,smart)