見出し画像

校閲の仕事はAIに奪われるのか?言語AIの現在地と未来

こんにちは。LINE校閲チームの澤田です。普段はLINE NEWSやlivedoor ニュースなどのニュース校閲を担当しています。校閲の業務にあたっていて、時折不安に感じるのが「AI」の存在です。

身近なところではiPhoneの音声アシスタント機能「Siri」や「ルンバ」などのロボット掃除機。検索エンジンやチャットボットにもAIの技術が取り入れられています。

メディア業界を見ると、AIアナウンサーAI記者など専門性を要する職種での活用もすでに始まっています。

2015年に発表された英オックスフォード大学と野村総合研究所の共同研究によると、AIやロボットなどの発展によって2030年までに日本の労働人口の約50%が「代替可能になる」という驚きの試算結果も出ています。

AIについて無知の私は、調べるほどに不安が募るばかり……。
「校閲」の仕事はAIの発展でどう変化していくのでしょうか。ともすると、いつか仕事を奪われてしまう日が来るのでしょうか。

社内に言語AIの先駆者がいると聞き、「AIと校閲の未来」について現時点での見解を聞きに行きました。

まずはAIの基礎知識

……とその前に。
私と同様、AIに明るくない方もいらっしゃるかと思いますので、先に3つのキーワードをご紹介します。ご存知の方は読み飛ばしてください。

🔑AI
人工知能(Artificial Intelligence)の略称。機械であるコンピューターが「学ぶ」こと(機械学習)ができるようになった。機械学習をはじめとしたAI技術により、翻訳や自動運転、医療画像診断や囲碁といった人間の知的活動に、AIが大きな役割を果たしつつある。

AIってなに?|文部科学省

🔑ディープラーニング
人間の脳神経回路を参考にしたアルゴリズム(計算や問題解決の手順)。ディープラーニングによってAIの精度が大幅に向上した。専門家が持つ経験則をルールベースに展開して人の知的作業を支援する「第一世代」から、統計/探索モデルによって最適解を発見する「第二世代」を経て、脳モデルに基づき認識性能を飛躍的に向上させる「第三世代」へシフトしている。

人工知能(AI)とは|NTT DATA
アルゴリズムとは|コトバンク
AI技術の変遷|人工知能(AI)とは|NTT DATA

🔑NLP
自然言語処理(Natural Language Processing)の略称。人が使っている言語(自然言語)をコンピューターで処理・分析する技術。先述したSiriやチャットボットなどもその例。世界で市場が拡大している。

自然言語処理|コトバンク
3分でわかる!自然言語処理(NLP)とは?|ITトレンド

言語AIを開発中のエンジニアに聞きます

前置きが長くなりました。今回お話ししてくれたのは、AIカンパニーに所属する佐藤敏紀さん。現在は日本語に特化した言語モデルの開発を指揮しています。

佐藤 敏紀(さとう・としのり)
LINE株式会社AIカンパニーNLP開発チーム。
自然言語処理と検索が専門のソフトウェアエンジニア。以前はAIアシスタント「LINE CLOVA」の日本語向けの自然言語理解システムの開発を担当。2021年からは、大規模汎用言語モデル「HyperCLOVA」(※後述)の日本語版の開発責任者。

ネットや書籍で得た多少の知識に心細さを覚えつつ恐る恐る質問をすると、初心者にもわかりやすいようにAIの特徴や人間との違いから噛み砕いて説明してくれました。

AIにも苦手なことはある

――AIの性能が格段に上がれば、私が普段行っている校閲の仕事も代替可能になってしまうのでは?と、AIに対して漠然とした恐れのようなものがあります。AIは何でもできるイメージですが、苦手な分野はあるのでしょうか?

AIにも苦手なことはあって、初めて見るもの・新しいものが苦手です。具体的には「新しい」というより「これまで持っているデータの中には、この文字列(対象とする言葉)はほとんど入っていないから、なんだったら全部間違いだ」みたいな感じになってしまう。人間は新しいものを作るのが得意だったり、新しいものを伝えるのが仕事だったりしますが、AIはまったく新しい現象に関して、それを修正(指摘)することが苦手です。

――新しいことを苦手とすると、社会の流れを汲んだ指摘もAIには難しいのでしょうか?最近、ウクライナの地名の日本語呼称を変更する動きがありました。校閲では各編集部の表記ルールもそうですが、社会の日々の動きを捉えた指摘も必要とされます。

📝キエフから「キーウ」に変更
外務省は3月、ウクライナの首都キエフの日本語呼称について、ウクライナ語に基づく「キーウ」に変更すると発表した。「キエフ」はロシア語に由来するため、ウクライナ政府の意向を確認した上で、変更を決めた。

ウクライナの首都等の呼称の変更|外務省

苦手ですね。蓄積されている言語の歴史上、変更後の「キーウ」の量が従来の読み方の「キエフ」を超えることはまだ起きていないと思います。「ここ数カ月で急激に増えている単語」として認識することは可能ですが、その意味を解釈するには人間が判断する必要があります。

――苦手なことは他にもありますか?

「推定」も苦手です。例えとして、ちょっと質問です。「OnePlus」という中国の会社がありますが、どんな事業を行っていると思いますか?

――「ワンプラス」ですか…存じ上げないですね……。

では、ヒントで「OPPOの傘下の会社」という情報があるとどうでしょうか?

――もしかして、スマートフォン関連の会社でしょうか?

当たりです。人間はすごいので、このように社名を知らなくても関連する情報で推定することができます。機械は基本的にそれが苦手です。

ファクトチェックについても考えないといけません。「正しいかどうか」の判断がAIにはわからないからです。機械側にはそもそも「正しい」という概念がありません。過去のデータから考えると「可能性が高い」という判断しかできないので、「合っているか否か」ではなく、「ありそうか、なさそうか」という判断になります。それを超えて「正しい、正しくない」が必要な場合は人間が判断しないといけないケースが含まれます。人間がある程度担保しないといけないのが現状です。

センシティブな表現を自動的には指摘できない

――昨日、校閲中に「ニューハーフ」という言葉を指摘しました。LGBTQの当事者団体が策定した報道ガイドラインでは「当事者の中には侮蔑的と感じる人もいる」として注意が促されている言葉です。ポリティカル・コレクトネスの観点など、注意が必要な表現をAIが指摘することはできますか?

倫理や社会情勢、自社のブランディングを守る観点からの"問題点"をまったく自動的に指摘するような機械学習モデルがあるかと言われると、それはありません。現在、LINEのAIカンパニーで行っているのは、繊細な表現を検出するためのツールやプラットフォーム開発です。

倫理などの問題点を多岐にわたる種類にカテゴリー分けしています。今の「ニューハーフ」という言葉は、性的な外見ないし内面も指し示すような言葉ですよね。「セクシャル」で「センシティブ」なカテゴリーに該当します。私たちが分類しているだけでもこれらのカテゴリーは48種類くらいあり、他の例としては「品格の欠如」や「脅迫」などもあります。

カテゴリーの例

ニュースなどの「記事」では検出してほしいけど、「歌詞」であれば芸術性を制限してしまうため検出を不要とするなど、分野ごとに出し分けが必要な場合もありますよね。検出が必要か否かを判断するフィルタリングシステムも同時に開発しています。

AIにできること、人間との違いは?

――少し話を戻しますが、先ほどAIは「新しいことが苦手」だと聞きました。私が普段行っているニュース校閲の「ニュース」は新しい出来事を伝えるものです。ニュースの特性とAIはマッチしないのでしょうか?

ニュースにも大きく分けて2種類あると思います。地震など過去から繰り返し発生していてある程度伝え方が決まっているものが1つ。これはAIが使える範囲です。もう1つはまったく知らない商品が新興企業から発売された…など、完全に新しい内容です。後者はAIには「本当のことかどうか」がわからない。

即時性を持つメディアが扱う情報であっても、繰り返しの構造を持っているものなのか、または一部は繰り返しや一般常識などと一致しているものなのか、それとも完全に新しい概念・文化なのかという点で扱える範囲が変わってくると思います。

あとは、文法構造に入り込んでおかしな日本語を指摘することは従来のAIや自然言語処理の範囲でできることではありますね。

――AIが苦手なこと・できることが少しずつ分かってきました。AIと人間を比較するとどんな違いがありますか?

AIと人間の違いは3点くらいだと思います。1つ目は、AIは「寝ない」。24時間同じペースでずっと同じ処理をし続けることができます。人間より低クオリティでよければ、人間よりも圧倒的な量を実行・実施することができます。

2つ目は「集中力」。人間は集中することによって自分の普段の能力を超えるアウトプットを出すことができますが、それをずっと維持することはできません。AIはピーク性能を維持できるんですね。なので、常に最強です。

3つ目は「よく知らなくても回答が出てくる」。人間は積み重ねがあるので、何か新しいことを知るためには今までの経験と紐づけて覚えますよね。人間は新しいことを短い時間で覚え、本質的に理解することが苦手です。一方のAIは何の脈絡もなく一瞬で新しいことを覚えられます。突然、「明日から医療を担当して」と言われても、データさえ突っ込めば完璧ではなくてもある程度の答えを導き出すことができます。

開発で感じる日本語特有の難しさ

――佐藤さんのチームで現在開発している「HyperCLOVA」は、世界でも初めて日本語に特化した「大規模汎用言語モデル」とのことですが、日本語特有の難しさはありますか?

📝「HyperCLOVA」とは
LINEとNAVERが共同で開発を進める、世界で初の日本語に特化した大規模汎用言語モデル(人間では処理できない程のとてつもない情報がすでに学習されたAI)。新聞記事や百科事典、小説などといった膨大な言語データ(新聞で例えると約2670年分)を学習させた言語モデル。さまざまな言語処理(対話、翻訳、入力補完、文書生成、プログラミングコード等)を行うことが可能となり、個々のユースケースを簡単に実現できることが期待される。「実用的で、汎用的な言語分野のAI」を目指している。

ニュースリリース|LINE株式会社
第12回対話システムシンポジウムで見事1位を獲得しました!|LINE CLOVA

日本語は語順の自由度が高い言語です。機械にとっては、単語がどういう順番で並んでいるかということがすべての知識のもとになるので、統制がとれている方が統計的にどのぐらいの可能性でそのフレーズが出てくるかということが計算しやすいんです。だから日本語は難しいんです。

あとは、わかりやすいところでいうと文字種の多さです。例えばこのペットボトルの「お~いお茶」。

商品ラベルだけでも、漢字、カタカナ、ひらがな、記号もあります。「Oi Ocha」とローマ字で書かれているし、重ねて英語で「Green Tea」とも……。さらに、「おーい」ではなく「お~い」なんですよね(笑)。こんなに複数の表現は、他言語ではあまり見られません。大体の国の言語は母国語だけで書かれるように変換されることが多いです。1つの概念を表す表現はできれば1つの文字列であったほうが機械としたら望ましいんです。

省略が多すぎる言語であることも結構な問題点の1つです。人間は何が対象となっているかという「設定」を頭に置きながら話を聞く(文を読む)ので、発言の欠落を補うことができます。機械にも特定する技術はあるのですが、確率的にしか特定できないので間違いの連鎖が起きてしまうんです。「欠落」はそもそも機械にとっては易しくない。欠落がなく、語順がきれいに並んでいて、同義語もなくて……という言葉だったらAIにとって簡単なのですが、そういう文章ばかりではないので難しいですね。

今後推論能力が高まる、言語AIの現在地

――開発はどのくらい進んでいますか?

現状のHyperCLOVAは頭脳明晰な小学校高学年レベルです。特に「書く」ことに関しては人間が作った文章と比べても区別がつかないくらい滑らかな文を作り出せるようになっています。でも、推敲のレベルにはまだ至っていません

知的な進化の話で言えば、開発当初の「物知りな小学校低学年」くらいが2年経って明確に「小学校高学年」を超えるところまで来ました。あと2年くらいしたら中高生、さらに2年で大人のレベルに近づいて、10年後には私たちはAIからお説教されているかもしれません。「もう遅いからそろそろ帰って寝なさい」とか「さっきの会議での発言はよくなかったんじゃない?」とか(笑)。ここでの「大人になる」とは推論能力が高まることです。

賢いAIは実行コストが高い

――私たちが一般利用できるようになる可能性はありますか?

現状はデータセンターを拠点に置いて大量の電気を使って運用をしている状態なので、まだスマホで実行できるようなレベルではありません。家のブレーカーがバンバン落ちるレベルで計算に電気を使うので。フル稼働時には、一般家庭300軒が同時に全力で電気を使うのと同等の電力を消費します。(スマホで)一般利用できるようになる可能性は、遅くとも20年後くらいでしょうか。だけど、すごく進化が早いのでもっと前に来る可能性もあります。

とにかく課題は計算機のコストがまだものすごく高いことだと思います。賢いAIは、1回あたりの実行コストも高い。本体価格にプラスして電気代がかかって運用するコストがかかって、さらにその裏側にはエンジニアがいて……。それを例えば「普通の記事作りに使う」では全然ペイしないと思うんです。「効率」よりは、AIの力を借りて「仕事のスケールや価値を何倍にできるか」を考える使われ方がこれから先しばらく続きそうな気がします。

人間を上回る日は来るの?校閲者の未来は…

――AIを知ることで人間のすごさが分かった気がします。今後、AIが人間を上回る日は来ると思いますか?

基本ずっと「ない」と思います。でも、AIは「寝ない、ぶれない、いきなり覚えられる」という特性があるので、そこに関しては人間は全然勝てません。勝負できる範囲はどんどん狭まっていくと思います。

誰でも同じことができるようになってしまうと、自分自身の経済活動の価値は相対的に下がります。私たちは"ちょっと違うこと"にチャレンジしていかないといけません。例えば、最近のテレビニュースでは視聴者がスマホで撮影した映像がよく使われますよね。場合によっては、その場にいる素人がAIを使って記者並みの記事を書けるようになる日が来るかもしれない。そうなった時に、本職の記者は何をするのか。カメラマンには何ができるのか。"素人とプロの違い"をAIが埋めてくるんですよね。おそらくプロの業務の一部は奪われていく。だから、プロは仕事のやり方を変え続ける必要があります

――校閲者はどうでしょうか。AIが進歩してもいなくならないと思いますか?

校閲者には、校閲する際にきっと「狙い」があると思います。何かの狙いをもって何かをする、ということを機械にさせるにはデータセットが必要です。そのデータセットは人間が作らなきゃいけない。きちんと作れるまでの間は人間の仕事はずっと有り続けるはずです。

校閲の狙いや、どういったクオリティを達成するかは日々変わっていると思いますが、機械はクオリティを変えていくことが苦手です。一度達成した同じことを延々と続けることは得意ですが、実行の度に性能や品質を上げていくことは苦手なんです。

品質を上げたかったら、品質の違いを定義したデータを構築しないと上がりません。でも人間ってちょっと怒られたら品質が上がりますよね(笑)。そこが強いんですよ。まだまだ人間のほうがAIよりクオリティが高く、かつ経済的な合理性もあると思うので、仕事はずっとあるんじゃないかなと思います。

■取材後記■
印象的だったのは、佐藤さんがAIではなく「人間はすごい」と繰り返していたことです。自然言語処理で人間の頭脳と同等の内容を実行するには、家庭用の電気ではまかなえない量の電力が必要だという学びもありました。
校閲の仕事にはルーティンも多く、単に繰り返しの作業に集中しがちですが、「プロは仕事のやり方を変え続ける必要がある」という言葉を肝に銘じて、クオリティを一段ずつ上げていけるように目の前の仕事に取り組みたいと思いました。
また、取材を終えると佐藤さんからこんな言葉もありました。「なぜ品質を高めないといけないのか。なんで今の品質で不十分なのか。それを伝えないものづくりは良くないのかもしれません。その理由が啓蒙されない業界は、"なんちゃって◯◯"が増えてきてしまうという実感があります。"なんちゃって校閲"に毀損されない価値をどう作るのかは、AIと直接関係ないですけど、大きな課題に思います」。

澤田 恵理(さわだ・えり)
LINE株式会社ポータル & サーチカンパニー校閲チーム。2019年入社。
前職は玩具メーカー営業、新聞社でイベント情報欄担当、テレビ局報道記者。社会系のニュース校閲が好き。趣味は昨年飼い始めたジャックラッセルテリア(犬)と遊ぶこと。

👇「LINE NEWS」LINE公式アカウントを友だちに追加https://lin.ee/chNt6wW/lnnw
LINEで更新通知を受け取りたい方はこちら。(※スマホ閲覧時のみ有効)
TwitterFacebookのフォローもよろしくお願いします。

この記事が参加している募集