ご注文は文字起こしですか?~4コマ漫画文字起こし(手入力)~
初めまして。"プチトマト"と申します。個人としては初投稿で、至らない点もあると思いますがよろしくお願いいたします。
先月頃から個人的に、『ご注文はうさぎですか?』(『ごちうさ』)の原作4コマ漫画の文字起こし(ここでは、漫画中の文字データをまとめて検索できる状態にする作業)を始めました。一応は1巻~最新話(本誌2024年10月号)までの文字起こしを終えたので、情報共有のため本記事を書きました。私自身も手探り状態でやった事で、こういった分野に詳しいわけでもないのですが、似た試みをされている方の参考になれば嬉しいです。
結論から言ってしまうと、Excelに自力でタイピングしていくだけです。以下では詳しい内容を説明していますので、興味のある方は最後までよろしくお願いします。
また、以下では『ご注文はうさぎですか?』の最新話までの台詞が一部登場する可能性があります。ネタバレにご注意下さい。
すべて表示
文字起こしの動機
『ごちうさ』を読んでいる時、「これと同じ(似た)台詞、どこで言ってたっけ?」と疑問が浮かぶ事があると思います。特に、原作9巻以降は序盤の台詞をセルフオマージュしたものが多く(↓例)、このような疑問が浮かぶ事は決して少なくないと思います。
このような際に、文字のデータがあって検索できれば便利ではないかと以前から考えていました。
また、本誌2024年5月号では、シャロちゃんの「しょうがないわね」について触れられているエピソードがありました。
私はこのエピソードを読んだ時、「実際のところは何回登場した台詞なのだろう?」と疑問に思いました。
そこで、シャロちゃんの「しょうがないわね」を数えるついでに、今後のことも考えて原作の文字起こしをしておこうと思い、作業を始めました。
文字起こしの方法
概要
ここからは、実際に文字起こしをした手順を紹介しようと思います。と言っても、私はこういった作業は初めて行いますし、知識があるわけでもないです。私の調べ方が悪いためか、似た試みをしている方については情報を見つけられず、我流の方法でやってしまいました。その点はご留意ください。
文字起こしの方法は、Excelで下のようなフォーマットを作り、電子書籍版の原作を見ながら、台詞をタイピング入力していくだけです。
吹き出し欄には吹き出し(形状を問わず)内の文字を、その他文字欄には吹き出しに入っていない文字全般(オノマトペや背景中の文字などを含む)を入力しています。
また行数は、1話あたり60行程度、後書きや幕間なども含めて全部で10424行分あります。
所要時間
所要時間はタイピング速度にもよりますが、私は1話当たり約30~40分かかっていました。そのため、原作が約160話で80~100時間程かかる計算になり、頑張れば2週間程で終えられます。(意外と短い!?)
協力者を集めて入力方法を統一すれば分担作業もできるので、その場合は数日で終えられると思います。…私はソロでやりましたが…
入力の際の個人的なコツを少し書いておきます。
・吹き出しは、現時点で↓コマの吹き出し8個が最大値なので8列用意していますが、入力作業の際には適当な所で列を非表示にしておいた方が使いやすいです。
・!や!?や…などの記号は多用されるので、適当に辞書登録するのがおすすめです。私はそれぞれ「!」は「え」、「!?」は「ええ」、「…」は「てん」、と辞書登録しています。
入力規則
以下では、私が入力する時に決めていた主要な入力規則を書いておきます。決めかねている部分もありますし、好みの問題でもあるので参考程度に。
入力規則
1,吹き出しは繋がっていれば1つとみなす
2,複数吹き出し繋がっている部分は間にスペース
3,一部でも吹き出し内に入っている文字は台詞とスペースを開けて吹き出し内に分類
4,読み仮名は{}で追加 セリフ分岐は<>で追加
・規則1~3について、例えば下の画像のように入力しました
・規則4の{}について、例えば下の画像のように入力しました
・規則4の<>について、例えば下の画像のように入力しました
これら規則は、検索漏れがないように決めたつもりです。例えば規則4は、2024年9月号の千夜の台詞は「ここから」と検索しても「カウンターから」と検索してもヒットします。また、フリガナ付のコマや台詞分岐があるコマだけを検索したいときも、{ や < を文字検索すれば良いはずです。
通常の()を使わない理由は、↓の(裏声)のように吹き出し中で登場する場合があるためです。
手入力した理由
もちろん、最初はOCRで作業を短縮しようとしていましたが上手くいきませんでした。試しにグーグルドキュメントを使ってみたのですが、漫画のコマや吹き出しを無視して縦読みしてしまうようでした。
例えば↑のような画像の場合、グーグルドキュメントは
コーヒー3杯頼んだから
この上品な香り!
この酸味…
安心する味!
3回触る権利を
これがブルーマウンテンかー
………
といった順番で文字にするようです。それに加えて、
・文字認識が出来ているかチェックする手間がある
・そもそも台詞の文章量が多くない
・正しい順序で文字認識をするプログラミング等を作る知識は私には無い
・現時点では『ごちうさ』以外の漫画を文字起こしする気は無い
・自分で入力した方が台詞の細部を見れて面白そう
などの理由からも、OCRは適していないと判断しました。手入力も意外と時間がかからないようだったので「案ずるより産むが易し」という事で、結局は自分でタイピングしました。
しかしながら、グーグルドキュメントの文字認識精度は結構良かったです。そのため、プログラミング等ができればある程度自動化も可能だと思います。また、台詞より文章量の多いインタビュー記事などを文字起こしする際には使えると思います(『ごちうさ』関連のインタビューの文字起こしについては、また後日noteに書こうと思います)。
使用例
文字起こしが終わった後の、検索機能の使用例を紹介します。
シャロちゃんが「しょうがない」を言った回数は?
件の台詞は「シャロちゃんの”しょうがないわね”好きだよ」なのですが、ここではもう少し広く「しょうがない」及びそれに近い台詞を数えてみます。結果は以下の合計8回でした。
時系列順に並べると以下の通りです。
1巻7話 CB1巻p.67 第1コマ
4巻8話 CB2巻p.194 第2コマ
8巻4話 CB4巻p.158 第4コマ
8巻11話 CB4巻p.213 第3コマ
12巻1話 p.6 第3コマ
2024年5月号 p.7 第2コマ
2024年5月号 p.12 第1コマ
2024年5月号 p.12 第3コマ
検索時の注意点
検索時に注意した事は、やはり検索漏れを無くすことです。「しょうがない」の例で言えば、「しょーがない」、「しっしょうがな…」といった表記もあります。そのため「しょうがない」、「しょーがない」、「がない」などで何度か検索を繰り返し検索漏れが無いようにしたつもりです。逆に、シャロ以外が言っている台詞は適宜判断して除外する必要があります。例えば「しょうがないわね」で検索した結果が↓です。
この7件の内、上から2つ目は千夜の台詞(CB2巻p.137第4コマ)で一番下は先ほどから引用しているココアの台詞ですから除外します。するとこの時点では5つしか数えられていないので、検索する文字列を変えながら何度か検索します。
また検索時のため、「しょうがない」と「しょーがない」のような表記揺れ(敢えてやっている場合とミスの場合を問わず)は文字起こしの入力作業の際に適宜メモしておくことをオススメします。全てではないと思いますが私がメモしていた表記揺れの例を書いておきます。
表記揺れの例
・気合/気合い
・気付く/気づく
・こんにちは/こんにちわ
・クラスメイト/クラスメート
・サボり/サボリ
・モフり/モフリ
改善点
今後改善しようと思っている点をいくつか挙げます。
まずは単純な事ですが、入力作業中に決めた(変えた)規則があるのでそれらを反映し直す必要がある点。
他に、いくつか付加する情報を増やそうと思っています。まずは、吹き出しごとに台詞の話者を入力することを考えてます。他にも例えば、吹き出しの形やコマの形、コマに写っている人物などの情報を加えてもいいかもしれないです。単行本化の際に修正された台詞や修正前の台詞も入力したいのですが、私が本誌を買い始めたのは2024年3月以降ですので、情報収集にまだ時間がかかりそうです。
また、話者などの情報を付ける際に、Notionなどのデータベースを活用した方が良いかもです。少し使ってみたのですが、CSVでエクセルのデータは移せますし、こちらの方がフィルター機能は使いやすいと思います。また、話者の情報入力を考えるとマルチセレクトが便利だなと思います。逆に、Notionの欠点は少し動作が重いことです。
おわりに
最後まで読んでいただきありがとうございました。私自身も手探りでやった作業ですが、少しでも似た試みをしている方の参考になればと思い書きました。
文字起こしをすることで、今まで意識していなかった細部まで読む良い機会になり、改めて『ごちうさ』の深さや面白さを認識しました。また、作品を読み込む際に検索機能は便利だと思います。考察や二次創作、ファン同士での議論の際など、こうした定量的なデータを活用できる機会は多く、有意義な事だと考えます。
是非お時間のある方はやってみていただきたいです。もちろん、そうしたなかなか時間が取れないという方もいると思います。しかし、私の所持する文字起こしデータを配布するのは著作権の観点から難しいと考えます。
そのため、記事を読んでいる方で『ごちうさ』原作中の特定の台詞(または文字)を検索したいという方がいれば、X(旧Twitter)等で私に連絡を頂けたら可能な限り対応したいと思います(返信が遅くなる事もありますがご了承ください)。初対面の方でも大歓迎です。台詞のデータが、作品についての活発な議論のきっかけとなれば嬉しいです。
それ以外にも、記事中の説明について不明な点や指摘などがあれば、お気軽にご連絡ください。