楽天、日本語に最適化したオープンかつ高性能なLLMを公開
楽天グループ株式会社
– 「LM Evaluation Harness」の評価基準において、基盤モデルとインストラクションチューニング済モデルがオープンな日本語LLMにてトップを獲得 –
楽天グループ株式会社(以下「楽天」)は、日本語に最適化した高性能の大規模言語モデル(以下「LLM」)の基盤モデル(注1)「Rakuten AI 7B」(以下「本基盤モデル」)と、同モデルを基にしたインストラクションチューニング済モデル(注2)「Rakuten AI 7B Instruct」(以下「本インストラクションチューニング済モデル」)、インストラクションチューニング済モデルを基にファインチューニングを行ったチャットモデル(注3)「Rakuten AI 7B Chat」をオープンなモデルとして、3月21日(木)に公開しました。
「Rakuten AI 7B」は、フランスのAIスタートアップであるMistral AI社のオープンモデル「Mistral-7B-v0.1」(注4)を基に、継続的に大規模なデータを学習させて開発された70億パラメータの日本語基盤モデルです。本基盤モデルの事前学習は、楽天が設計した内製のマルチノードGPUクラスターで拡張的に行われ、大規模で複雑なデータを使用した事前学習プロセスを高速で実現可能となりました。また「Rakuten AI 7B Chat」は、「Rakuten AI 7B Instruct」を基にしたチャットモデルで、会話形式の文章生成のためのチャットデータを用いファインチューニングされています。なお、上記の全3モデルは、Apache 2.0ライセンス(注5)で提供されており、楽天の公式「Hugging Face」リポジトリ(注6)からダウンロードすることができます。
【楽天のLLMの特徴】
1. 高品質データでの事前学習により高性能を実現
本LLMは「Mistral-7B-v0.1」を基に、インターネット上に存在する膨大な日本語と英語のデータによって事前学習を繰り返しています。事前学習に使用したデータは、与えられた条件に従ってデータを選別および抽出を行う内製のフィルタリング機能と、関連情報をデータにメタデータとして付与するアノテーション作業によって質を向上させており、楽天のLLMの性能の高さに貢献しています。
2. 日本語の言語に最適化された形態素解析器により高い効率性が可能
本LLMは、日本語の言語に最適化された独自の形態素解析器(注7)を使用しています。一般的に形態素解析器は自然言語で書かれている文章を適切な単位に細分化して分析することができます。楽天の形態素解析器においては、文章の分割単位であるトークンあたりの文字数が増加し、その結果、より多くの情報を単一のトークンに含めることができます。そのため、従来の形態素解析器と比較して、事前学習や推論のテキスト処理をより効率的に行えるようになりました。
3. オープンな日本語LLMにおいてトップの評価を獲得
本基盤モデルと本インストラクションチューニング済モデルは、言語モデル評価ツール「LM Evaluation Harness」(注8)の基準において、日本語と英語のLLMの高いパフォーマンスが評価され、高性能であることが実証されました。日本語の評価では、本基盤モデルが平均69.8ポイント、本インストラクションチューニング済モデルが平均77.3ポイントのスコアを獲得、英語の評価では、本基盤モデルが平均60.5ポイント、本インストラクションチューニング済モデルが平均61.3ポイントのスコアを獲得し、オープンな日本語LLMにおいて、大変優れたモデルとなっています(注9)。
なお、全3モデルは、文章の要約や質問応答、一般的な文章の理解、対話システムの構築など、様々なテキスト生成タスクにおいて商用目的で使用することができるほか、本基盤モデルは他のモデルの基盤としても利用可能です。
楽天のCDO (Chief Data Officer)のティン・ツァイは、楽天のLLMに関して次のようにコメントしています。
「楽天は、お客様の課題を解決するためにテクノロジーを駆使して最適なツールを活用したいと考えています。楽天は、多様なAIモデルや、長年にわたって独自に開発を続けてきたデータサイエンス、機械学習モデルなど、幅広いポートフォリオを保有しています。そのため、コストや品質、性能の面で様々な顧客ニーズを解決するための最適なツールが提供可能です。このたび、大規模な日本語の言語基盤モデル『Rakuten AI 7B』の開発を通じて、楽天が得た知見をオープンソースコミュニティと共有し、日本語LLMのさらなる開発と発展に貢献できることを楽しみにしています」
LLMは、昨今のAI革命を引き起こした生成AIを支える中核のテクノロジーです。楽天は、現在のLLMを研究目的で開発しており、お客様に最高のサービスを提供するため、今後も様々な選択肢を評価検討していきます。また、社内においてモデル開発することで、LLMの知識と専門性を高め、楽天エコシステム(経済圏)をサポートするための最適化されたモデル作成を目指していきます。さらに、楽天はオープンソースコミュニティへの貢献を目指し、本LLMをオープンなモデルとして提供することで、国内外におけるAIのさらなる発展を後押ししていきます。
楽天は、AI化を意味する造語「AI-nization(エーアイナイゼーション)」をテーマに掲げ、さらなる成長に向けてビジネスのあらゆる面でAIの活用を推進する取り組みをしています。今後も豊富なデータと最先端のAI技術の活用を通じて、世界中の人々へ新たな価値創出を目指してまいります。
(注1)基盤モデルとは、膨大な量のデータに対して事前にトレーニングされ、その後、特定のタスクやアプリケーションに適応するためにファインチューニングすることができるモデルのことです。
(注2)インストラクションチューニング済みモデルとは、指示形式のデータで基盤モデルをファインチューニングしたモデルです。このファインチューニングにより、利用者が入力した指示に対して返答を生成することができるようになります。
(注3)チャットモデルとは、会話形式や指示形式のデータにてファインチューニングされた基盤モデルの一種です。このファインチューニングにより、会話形式で質問への返答をできるようになります。
(注4)Mistral AI社の「Mistral-7B-v0.1」は、https://huggingface.co/mistralai/Mistral-7B-v0.1 からアクセスできます。
(注5)Apache 2.0ライセンス:https://www.apache.org/licenses/LICENSE-2.0
(注6)楽天グループの公式「Hugging Face」リポジトリ:https://huggingface.co/Rakuten
(注7)形態素解析器とは、文章をトークンと呼ばれる小さな単位に分割するプログラムのことです。トークンは、望ましい粒度に応じて、単語、部分語、または文字であることが一般的です。
(注8)言語モデル評価ツール「LM Evaluation Harness」とは、言語モデルを一定の項目で評価するフレームワークです。
(注9)「LM Evaluation Harness」のフレームワークにて、2024年1月~3月に楽天内にて、全評価を同じ環境において実施しました。
日本語評価(テンプレートバージョン0.3で実施):https://github.com/Stability-AI/lm-evaluation-harness/tree/0fa86429679f521161d5b81a94c0c385e0a0976d
※日本語評価の平均結果は、7項目の評価結果の平均です。
英語評価:https://github.com/EleutherAI/lm-evaluation-harness/tree/b281b0921b636bc36ad05c0b0b0763bd6dd43463