![見出し画像](https://assets.st-note.com/production/uploads/images/98749760/rectangle_large_type_2_22065062c008ca2813f254848dfcdc7c.png?width=1200)
「テュルク諸語愛」の示し方を模索していこうじゃあないかッ
やあみなさま、Sahahınız Xeyir! Necəsiniz?
ということで、昨日参加してきました。DHフェス2023。
開催の5日前、発表締め切り後まる1日経過した後で飛び込みのように申し込んだのですが、主催のみなさまのご厚意で発表を受け入れてくださいました。重ねて感謝の意を表します。
別のところには書いたのですが、まったく門外漢だった「デジタルヒューマニティーズ」(かつては、「人文情報学」という名称だったそうですね。これも今回参加してみてはじめて知りました)というジャンルでのオンラインフェスだったわけですが、やってみての結論を先に書けば、発表してみてよかったという以外にありません。
だいたいにおいて、こういう類のアウトプットで損をしたことはないということはありますが。コメント、アイデアをたくさんいただいた皆様に改めて謝意を表したく存じます。
このジャンルのイベントの存在はうっすら知っていた(言語学フェスにインスパイアされての試みなのだそうで)のですが、自分にはあまり縁がないジャンルだとどこかで思っていたような気がします。
ほんとうにふとしたタイミングで、「ゲヘヘ『星の王子さま』、こんだけ集めてやったやで」と自己満足以外のなにものでもないツイートをしていましたら(小学生か)、長年なにかとお世話になっているまつーらさんから「それだけ集めたんだったら、平行コーパスの作成を真剣に検討してみたらどうですか」(大意)というコメントをいただいたのが今回の直接の契機となったのでありました。
実はそれ以前にもフランス語がご専門の渡邊淳也先生から、平行コーパスの作成をやってみたら、というご提案をツイッターでいただいたことはあったのですが、うんそうですねまあその気になったら…くらいに当時は軽くしか考えていなかったのです。面白そうではあるけど、なんか手間がかかりそうだし、テュルク諸語を広く見るとはいっても、今は(つまり、当時は)トルコ語とアゼルバイジャン語で手一杯やで、とどこかで思っていたのでしょう。なるほど、最近に至るまで各言語を一度研究目的に一つのデータ群として利用してみようという試みを真剣に考えたことはなかったのです。
しかし、と。いっぽうでどこかで「テュルク語学が自分の守備範囲と言っておきながら、かつそれを大義というのでお金を使って各言語の『星の王子さま』を入手したのだろうオレは。ではいつそのリソースを使うつもりなのかねオレは?」と考えていたこともまた偽らざるところではありました。
そのような時期で、実はOCRはGoogleの機能で簡単に恩恵にさずかれるのですよ、という情報をいただいたのはとても大きいことでした。すでにご存じの方はきっとたくさんいらっしゃるでしょうが、私は教えてもらうまで"Google Lens"というツールの存在すら知らなかったのですから!
このOCR(Optical Character Recognition;「光学文字認識」)の機能はスマホやタブレットの写真機能がついている機器をもっていると、すさまじい威力を発揮するということをこの1週間体験しまくっていました。なんせ、紙でしかもっていなかったアゼルバイジャン語やクムク語、カラチャイ・バルカル語の『星の王子さま』がデジタルで取り込めるのなんの。キーボード手作業で一つ一つ入力するのより数十倍は効率がよいという。
これに前後して、実は投資をしましてブックスキャナも購入したのですが、こちらはまだつかいこなせていないので威力についてはまだなんとも評価しにくいのですが、そのうちそちらのほうも使いこなせればなと思っています。
上記リンクの商品。買いましたがな。
テュルクのためなら〇ねる!と叫びながらポチりましたよね…!
決して安い買い物ではなかったのですが、モトはとれると信じてやっていくしかないですね。なんせ、テュルク諸語のデータをデジタル化するだけでも利用の可能性は一気に広がるでしょうから。
それと、ある方からは「テュルク諸語をひとたび並べてみてどの文やどの語がどのような意味をもっていたり、どういう構造をしているのかがある程度わかる人というのはそれほど多くない(し、やろうとも思わないだろう)から、やれる人がそれをやるのがいいんだ」というコメントには勇気づけられました。
まあそりゃね、まんべんなく詳しいなどということはありません。サハ語などについてはもう全然わかりませんし、チュヴァシュ語も同様。これらはあまりにも自分の守備範囲とするトルコ語やアゼルバイジャン語とは遠すぎて話を聞くだけで笑ってしまいますからね…
だが、全部を一人でやる必要もないわけですよね…!
さいわいチュヴァシュ語もサハ語も、近い知り合いということでエキスパートがいる。彼らとはまだこの件では直接相談はしていないのですが、いずれ困ったらお力をお借りすればいいだけのことですからね。
とにかく、案ずるより産むが易しなのでしょう。まずはデータを利用可能な形に取り入れることから。
やりだしてみると、こんな誰でも始められることをなぜ今までやらなかったのか(もったいねー)という自己嫌悪に陥るという瞬間を経験してはいるところなのですが、それこそ思い立ったが吉日、と反論するしかないでしょうね。
危機に瀕した言語の記述やアーカイブ化を早急にやらないといけないわけではなし。じっくりと時間をかけて、長いスパンで少しずつデータ化していければなと思います。
研究も勉強も、これを転機にしたいなと思うのでありました。
ということで今日の一曲は、奥田民生のナンバーの中でも個人的にベスト5に入る一曲を。
「最強のこれから」
あくまで目標ですが、自分なりのテュルク語学の最強を目指していこうかなと。
ああ、忘れないうちに。最弱状態で臨んだ、DHフェス2023のポスターをPDFファイルで公開します。数年後には「オレ、こんな知識ゼロでフェスに飛び込んだんだ…」と笑えるようになっていたいです。
いいなと思ったら応援しよう!
![吉村 大樹](https://assets.st-note.com/production/uploads/images/173281934/profile_953f1e6dd0436f4ca73e8e6926eb1fb7.jpg?width=600&crop=1:1,smart)