NLP2024(言語処理学会 第30回年次大会)レポート: テーマセッション「ことばと地理空間の情報処理」共同提案者・プログラム委員として参加しました!
こんにちは!MIERUNEのソフトウェア・エンジニア、久本(@sorami)です。北海道も少しづつ暖かくなってきて、雪が溶け始め、春の兆しを感じるようになりました。
この記事では、自然言語処理(NLP)研究における国内最大規模のイベント「言語処理学会 年次大会」に、テーマセッションの共同提案者、および大会プログラム委員として参加してきた様子を紹介します!
NLP2024: 言語処理学会 第30回年次大会
コンピューターで、日本語や英語といった人間の言語(自然言語)を扱う「自然言語処理」という分野があります。近年は、ChatGPTをはじめとする様々なアプリケーションの台頭で、一般にも身近になってきているでしょう。
日本におけるNLP研究交流の中心的な場が言語処理学会です。NLPに関連する国内学会としては他にも情報処理学会や人工知能学会などがありますが、当学会はその名が示すようにNLPへ特化しているのが特徴で、結果としてコミュニティの密度も高くなっています。
その言語処理学会が年に一度開催するイベントが年次大会です。毎年3月に開催され、全国からNLPに従事する人々が集います。それぞれが自身の研究成果を発表し、活発な議論がなされます。
昨年(NLP2023)の様子は、以下の記事で紹介しています!
今年は、30回の歴史の中で初めての「神戸」開催でした ⚓ 🏔️ 🌉
昨年(NLP2023)は3年ぶりのオフライン(ハイブリッド)開催ということや、ChatGPTが出た後というタイミングもあり、史上最大の規模でしたが、今年はそれをさらに超えて、参加者数、発表件数、スポンサー団体数、全てにおいて過去最大となりました(参考: 言語処理学会 - 年次大会 統計データ):
参加者数: 2,121人(本会議)
発表件数: 599件
スポンサー数: 89団体
会場は神戸のポートアイランド(ポーアイ)の神戸国際会議場。神戸の三宮から、新交通システム「ポートライナー」に乗って向かいます。この路線は1981年に開業し、世界初の自動無人運転方式だったそうです。また、ポーアイは、完成当時は世界最大の人工島だったとのこと。
とにかく参加者も発表件数も多く、会場はかなり混雑しており大盛況でした。発表会場に入り切らず、建物内にあるサテライト会場で見ることもしばしばありました。公式の懇親会はホテルの大宴会場で開催されましたが、事前申し込みがすぐに定員に達して締め切られていました。
全体として、企業の方による参加が多いなあという印象がありました。産業界からのNLPへの熱い期待を感じます。
また、チュートリアル「デジタル・ヒューマニティーズ入門」(北本朝展さん)、「計算社会入門」(吉田光男さん)も大変興味深く、同じように様々な分野で学際的にNLPの技術が活用されている発表がありました。これからNLPが、一つの道具として、これまでに接点のなかった界隈にも広く浸透していくことになるのだろうなと思います。
テーマセッション「ことばと地理空間の情報処理」
昨年の「地理空間情報と自然言語処理」に続き、”地理”と”言語”に関するテーマセッションを、今年は「ことばと地理空間の情報処理」と題して開催しました。共同提案者はなんと27名!
テーマセッションを主導する奈良先端科学技術大学院大学(NAIST)の大内啓樹さんは、まだ世界的にも研究があまり進んでいない「地理空間」と「言語処理」の融合領域を開拓するべく活動されています。2022年度の科研費Bでは、自身が研究代表者を務めるプロジェクト「文章中の人物の移動軌跡を実世界の地図上に接地するための基礎研究とその応用」が採択されました。
昨年のテーマセッションについても、大内さんが『自然言語処理』に報告記事を書かれています:
さて、NLP2024でのテーマセッションですが、2セッション、計9件の発表がありました。うち一つのセッションで、私が座長を務めました。
タイトル・著者と論文(予稿)へのリンクを以下に示します:
移動軌跡解析:文章中の人物の地理的な移動を読み取る 山本和太郎 (NAIST), 大友寛之 (サイバーエージェント), 大内啓樹 (NAIST/理研/国語研), 東山翔平 (NICT/NAIST), 寺西裕紀 (理研/NAIST), 進藤裕之, 渡辺太郎 (NAIST)
Word2Box を用いた人々の移動に基づく地域メッシュの領域表現 奥島海, 廣田雅春 (岡山理大)
言語情報と地理情報を融合した魅力的な経路案内 大滝啓介, 吉村貴克, 徳久良子 (豊田中研)
メンション文脈とエントリ属性を考慮した Transformer Bi-Encoder によるジオコーディング 中谷響 (NAIST), 寺西裕紀 (理研/NAIST), 東山翔平 (NICT/NAIST), 大内啓樹 (NAIST/理研/国語研), 渡辺太郎 (NAIST)
日本語旅行記ジオパージングデータセットATD-MCL 東山翔平 (NICT), 大内啓樹 (NAIST), 寺西裕紀 (理研), 大友寛之 (サイバーエージェント), 井手佑翼, 山本和太郎, 進藤裕之, 渡辺太郎 (NAIST)
語形の分布状況のベクトル化による言語地図の分類方法 近藤泰弘 (青学大), 持橋大地 (統数研)
地理的エンティティ情報が与えられた文書ジオロケーションモデルの有効性検証 山本祐耶, 乾孝司 (筑波大)
衛星画像の時系列変化説明に向けたLVLMの比較 辻本陵 (NAIST), 大内啓樹 (NAIST/理研/国語研), 上垣外英剛, 渡辺太郎 (NAIST)
Text2Traj2Text: 大規模言語モデルを活用した段階的データ生成に基づく人物移動軌跡の言語化 浅野輝 (東大), 米谷竜, 関井大気 (サイバーエージェント), 大内啓樹 (NAIST)
このほかにもセッション外で、いくつかの関連した発表がありました:
地図を刺激に用いた経路情報参照表現の収集 川端良子, 大村舞 (国語研), 小西光 (Tecca合同会社), 浅原正幸 (国語研), 竹内誉羽 (HRI)
地図を刺激に用いた位置情報参照表現の収集 大村舞, 川端良子 (国語研), 小西光 (Tecca合同会社), 浅原正幸 (国語研), 竹内誉羽 (HRI) (優秀賞受賞)
東山さんらによる「日本語旅行記ジオパージングデータセットATD-MCL」は、委員特別賞も受賞されました!
テーマセッションは、現地会場で60人超、オンライン視聴で50人超の方々にご参加いただきました。またあわせて大会Slackでも、多数の方による議論が活発に行われて盛り上がりました。
セッションの終わりには、共同提案者でもある松村結衣さん(Helpfeel)に、開発されている対話型スマート地図アシスタント「TRIDENT」のデモをご紹介いただき、それも踏まえて参加者らで地理と言語のこれからについて議論を行いました。松村さんが「デプロイ力(りょく)が重要」と仰っていたのが印象的でした。
それぞれ異なる観点から「ことばと地理空間の情報処理」に関わる方々が一堂に会し、その取り組みを紹介する良い機会になったかと思います。
「地理」と「言語」のコミュニティ
NAISTの大内さんらと、位置情報を専門とする我々MIERUNEは2022年から、地理空間と言語処理にまつわる会を開催してきました(関連ニュース)。
NLP2023のテーマセッションも踏まえ、それを発展させ2023年4月からは「Geography & Language Study Group」という、一般にも開かれた形でのオンライン勉強会を開催しています:
2023年度は以下の発表がありました。2024年度も4月から開始予定です。
第1回:古川泰人(MIERUNE)「OpenStreetMapについてざっくり知ろう」 2023年4月28日. [slide]
第2回:yuiseki(Helpfeel)「TRIDENT GeoAI v2 解説」 2023年5月26日. [document]
第3回:北本朝展(ROIS-DS人文学オープンデータ共同利用センター, 国立情報学研究所)「GeoとNLPをつなぐ地名の情報学」2023年7月6日. [slide] [関連資料ページ]
第4回:宮脇峻平(株式会社キーウォーカー,東北大学)「LLMによるプログラムベース推論」2023年8月7日. [slide]
第6回:岡部篤行(青山学院大学/東京大学)「空間分析が期待を寄せる空間自然言語処理」2023年10月5日.
またあわせて、継続的な情報共有の場として、Geogarphy & Language Slackもあります。ぜひ気軽に、参加リンクからご参加ください!🥳
ちなみに大内さんは、NLP2024直後の3月16日に開催された、情報処理学会によるイベント「IPSJ-ONE」でも、『ことばの地理空間を理解するコンピュータ』という題でご発表されていました。アーカイブ動画がありますので、ご興味ある方はぜひご覧ください(動画37:40~):
大会プログラム委員のお仕事
私は言語処理学会の年次大会に、プログラム委員という形でも関わってきました(2022-2023年度、任期2年)。
この大規模なイベントを、今年度は大会委員会8名・大会プログラム委員会27名・大会実行委員会6名の体制で運営しました。皆、第一線で活躍されているNLPerです。
私はウェブ担当として、主にウェブサイト周りの業務を担当しました。2022年度は寺岡丈博さん(拓殖大学)、2023年度は上垣外英剛さん(NAIST)との2名体制でした。古から受け継がれたコードや運用方法をもとに、静的サイトジェネレーターを用いたビルドや、CI/CDによるプレビューなどといったモダンな開発方式を徐々に取り入れていきました。現在はNLPの研究や開発を主務としていない私ですが、このような形でコミュニティへ貢献できたことを嬉しく思います。
大会の規模が大きくなるにつれ、委員への負荷もなかなか大きくなってきていますが、コミュニティが発展するのは喜ばしいことでしょう。そしてこのようにコミュニティのメンバーが主体的に運営していることが、国内NLP界隈の雰囲気を形作っていると思います。
おわりに
来年、NLP2025は長崎での開催です!
自然言語処理の進歩は、まだまだ加速していくでしょう。地理空間情報のような様々な分野との交流も進むでしょう。これからの1年で、どのように新たな世界が拓けていくでしょうか。楽しみです。