日本語 LLM ベンチマークの現状——JGLUE・llm-jp-eval が示すもの
日本語の大規模言語モデル(LLM)をどう評価するかは、長らく研究コミュニティの関心事だった。英語中心のベンチマークを直訳しても日本語特有の言語現象は測れず、かといって独自ベンチ乱立では比較軸が崩れる。このジレンマへの標準的な回答として、現在は JGLUE と llm-jp-eval の 2 つが参照点になっている。
JGLUE——自然言語理解タスクの総合版
早稲田大学と Yahoo Japan 研究が中心となって構築した JGLUE は、自然言語推論(JNLI)、質問応答(JSQuAD)、文書分類(MARC-ja、JSTS)などを含む。言語処理学会誌に掲載された設計論文によれば、英語 GLUE を「翻訳」するのではなく、日本語話者がゼロから書いたデータで各タスクを構築した点が重要だ。
llm-jp-eval——大規模言語モデル時代の日本語評価
一方、国立情報学研究所(NII)および llm-jp プロジェクトが主導する llm-jp-eval は、LLM 時代を想定して設計されたスイートで、リーダーボードが Hugging Face 上で公開されている。読解、要約、言語理解、コード生成などが含まれ、評価スクリプト自体も GitHub に公開されている。
# llm-jp-eval の典型的な呼び出し例
git clone https://github.com/llm-jp/llm-jp-eval
cd llm-jp-eval
python scripts/evaluate_llm.py -cn config.yaml
model.pretrained_model_name_or_path="llm-jp/llm-jp-3-13b-instruct"
クローズド vs オープン——現状の序列
公開されたリーダーボードおよび複数の技術ブログを総合すると、2024〜25 年時点では GPT-4o と Claude 3.5 Sonnet が総合スコアでリードし、Google Gemini がそれに続く構図が多い。日本国産の llm-jp-3、Sakana AI 系のモデル、rinna、ELYZA などは、文書分類や常識推論の特定タスクで上位勢に迫るケースがある。
数字を鵜呑みにしない読み方
もっとも、ベンチマーク値は文脈を伴って読む必要がある。train データの一部が test と重複する「ベンチマーク汚染」の懸念は、英語圏でも日本語圏でも繰り返し指摘されてきた。また、instruct-tuning の方法やプロンプト形式で結果は大きく動く。arXiv に掲載された複数のサーベイ論文が、評価方法論そのものの標準化不足を指摘している。生成 AI と著作権の文脈で学習データの出所が問われるなか、評価データの透明性も同等の重要性を持つ。
参考情報 · Sources
- JGLUE: Japanese General Language Understanding Evaluation Yahoo Japan 研究 / 早稲田大学
- llm-jp-eval リポジトリ llm-jp プロジェクト / NII
- 日本語 LLM 評価ベンチマーク(言語処理学会誌) 言語処理学会
- Open LLM Leaderboard Hugging Face