『中国語形態素解析エンジン概観』 in 2025

はじめに

日本語で紹介されている中国語の形態素解析エンジンとテキスト分析用ツールの解説については千田(2018)がある。今回は2025年時点までのアップデートを含めつつこの文献を紹介する。

千田(2018)の題名には「中国語形態素解析エンジン」とあるが、正確には分かち書き・品詞推定・語形変化の処理を行う形態素解析エンジンではなくツールキットの紹介を含んでいる。本記事では呼称や書き方を含め説明対象を千田(2018)にあわせることとする。文献原文については以下を参照のこと。

中国語形態素解析エンジン・分析ツールキット紹介

NLPIR-ICTCLAS

中国科学院が提供している、フリーの中国語形態素解析エンジンの草分け的な存在。ICTCLASは旧称。Java、C、C#、Pythonに対応している。PythonラッパーPyNLPIRがあり、こちらでも利用可能。

webサイトのデモが充実している。Wikipediaのパンダのページ冒頭を入力した。

ハルビン工業大学 LTP

哈尔滨工业大学(ハルビン工業大学)は、MicrosoftのピンインIMEの開発に携わるなど中国語NLPの分野でも有力な大学の一つ。千田(2018)ではWindows版のインストールがうまくいかないケースの多さが指摘されているが、最新バージョンでは解決されていそう?(筆者はColabでテストしているため未検証)。

デモページでは構文解析の結果も可視化してくれる

清華大学 THULAC

清华大学自然语言处理与社会人文计算实验室 (清華大学自然言語処理・社会人文計算実験室)が開発した形態素解析エンジン。「社会人文計算実験室」という響きからしてかっこいい。品詞タグ付け中国語コーパス (約 5,800 万語) を使用してトレーニングされており、優れた注釈機能を備えている。Chinese Treebankを用いた検証でも高い検証精度を保ちながら、1 秒あたり約 150,000 語を処理できるそうな。

FudanNLP

復旦大学提供のオープンソースツール。サイトを確認したところ、

FudanNLP
采用Java编写的中文自然语言处理开源项目,提供了进行自然语言处理的工具, 包括分词、词性标注、句法分析、文本相似度计算等 以及进行处理所需的数据集。本项目现已停止维护
(Javaで書かれた中国語自然言語処理オープンソースプロジェクトであり、単語分割、品詞タグ付け、構文分析、テキスト類似度計算などを含む自然言語処理用ツールと処理に必要なデータセットを提供している。このプロジェクトは現在メンテナンスが終了している)

开源项目(※オープンソースのこと)ページ

とのことであり、2025年現在ではメンテの終了がアナウンスされている。

HanLP

PyTorch と TensorFlow 2.x のデュアル エンジンをベースとした多言語自然言語処理ツールキット。中国語(簡体字・繁体字)、英語、日本語、ロシア語、フランス語、ドイツ語を含む 104 言語で 10 の共同タスク (単語分割、品詞タグ付け、固有表現認識、依存関係) をサポートしている。

結巴(jieba)中文分詞

MITライセンスの形態素解析エンジン。ドキュメントが充実しており、日本語での中国語テキスト分析やってみた系の記事も散見される。

SnowNLP

TextBlobから着想を得て作られた自然言語処理ライブラリ。TextBlob とは異なり、NLTKを使っておらず自前で実装している。

xmnlp

Java対応の中国語分析ツールキット。ピンイン変換など多彩な機能を持つ。

SCWS 中文分詞

PHP対応の形態素解析エンジン。SCWSとXapianを基盤としたオープンソース全文検索エンジン「xunsearch(迅搜)」がリリースされている。

中文断詞系統

台湾の中央研究院が提供しているツール。学術目的の場合無償で使えるが、ユーザー登録をしてパスワードを受け取る必要がある。

Stanford Word Segmenter

スタンフォード大学提供のツール。アラビア語と中国語をサポートしている。KH Coderで利用可(更新履歴にもStanford Word SegmenterおよびStanford POS Taggerを用いて中国語データから語を抽出していることが書かれている)。KH Coderで中国語テキストを分析する報告は田邉(2018)がある。

BosonNLP

玻森中文语义开放平台(ボソン中国語語義オープンプラットフォーム)が正式名称ということで千田(2018)でも紹介されているが、現在はサイトにアクセスできなくなっており、関連するラッパーなどの開発も止まっている?

この他にも千田(2018)で紹介されているサービスはいくつかあるが、現在はクローズされているのかサイトにアクセスできないものがある。

雑感

中国科学院とか中国の大学のラボHP見てるといろいろ勉強になりますね(見せ方とか。新しい形態素解析エンジン・分析ツールが現れていると思われるため、適宜アプデをいれていきます。

いいなと思ったら応援しよう!