日本語ローカルLLMの情報をこの記事にまとめ中です。 ※2023年10月31日現在の情報を記入したつもりですが、正確性は保証できません。
- まとめ
- lightblue/karasu-7B-chat-plus-unleashed
- lightblue/qarasu-14B-chat-plus-unleashed
- rinna/nekomata-14b-instruction
- tokyotech-llm/Swallow-70b-instruct-hf
- pfnet/plamo-13b-instruct
- cyberagent/calm2-7b-chat
- stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b
- stabilityai/japanese-stablelm-instruct-beta-70b
- rinna/youri-7b-instruction
- stockmark/stockmark-13b-instruct
- stabilityai/japanese-stablelm-instruct-gamma-7b
- stabilityai/japanese-stablelm-3b-4e1t-instruct
- llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
- stabilityai/japanese-stablelm-instruct-alpha-7b-v2
- pfnet/plamo-13b
- elyza/ELYZA-japanese-Llama-2-7b-instruct
- matsuo-lab/weblab-10b-instruction-sft
- stabilityai/japanese-stablelm-base-alpha-7b
- stabilityai/japanese-stablelm-instruct-alpha-7b
- stabilityai/japanese-stablelm-instruct-alpha-7b-v2
- line-corporation/japanese-large-lm-3.6b
- stockmark/gpt-neox-japanese-1.4b
- rinna/bilingual-gpt-neox-4b-instruction-ppo
- rinna/japanese-gpt-neox-3.6b-instruction-ppo
- cyberagent/open-calm-7b
- 日本語LLMのリーダーボード
まとめ
lightblue/karasu-7B-chat-plus-unleashed
- 学習データ
- 事前学習 ~7B
- 指示チューニング
lightblue/qarasu-14B-chat-plus-unleashed
- 学習データ
rinna/nekomata-14b-instruction
- 学習データ
- 事前学習データ 66B
- 指示チューニング
tokyotech-llm/Swallow-70b-instruct-hf
- 学習データ
pfnet/plamo-13b-instruct
- 学習データ
cyberagent/calm2-7b-chat
stabilityai/japanese-stablelm-instruct-ja_vocab-beta-7b
- 学習データ
- 事前学習データ 100B
- Japanese/English Wikipedia
- Japanese mc4
- Japanese CC-100
- Japanese OSCAR
- SlimPajama (excluding the Books3 subset)
- 指示チューニング
- 以下を日本語訳したデータ
- Anthropic HH-RLHF
- Databricks Dolly 15-k
- OpenAssistant Conversations Dataset
- 以下を日本語訳したデータ
- 事前学習データ 100B
stabilityai/japanese-stablelm-instruct-beta-70b
- 学習データ
- 事前学習データ 100B
- Japanese/English Wikipedia
- Japanese mc4
- Japanese CC-100
- Japanese OSCAR
- SlimPajama (excluding the Books3 subset)
- 指示チューニング
- 以下を日本語訳したデータ
- Anthropic HH-RLHF
- Databricks Dolly 15-k
- OpenAssistant Conversations Dataset
- 以下を日本語訳したデータ
- 事前学習データ 100B
rinna/youri-7b-instruction
- 学習データ
- 事前学習データ 40B
- 指示チューニング
stockmark/stockmark-13b-instruct
- 学習データ
stabilityai/japanese-stablelm-instruct-gamma-7b
- 学習データ
stabilityai/japanese-stablelm-3b-4e1t-instruct
- 学習データ
llm-jp/llm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0
- 学習データ
stabilityai/japanese-stablelm-instruct-alpha-7b-v2
- 学習データ
- 以下のデータの組み合わせ
- Japanese translation of the Databricks Dolly-15k dataset
- Japanese translation of the subset of the Anthropic HH dataset
- Wikinews subset of the izumi-lab/llm-japanese-dataset
- 以下のデータの組み合わせ
pfnet/plamo-13b
- 学習データ
- 英語
- RedPajamaからbooks3を抜いたデータセット
- 割合
- 87.7%
- 日本語
- mc4
- 割合
- 12.0%
- wikipeda
- 割合
- 0.3%
- 割合
- 英語
elyza/ELYZA-japanese-Llama-2-7b-instruct
- 学習データ
- ELYZA独自の高品質な指示データセット
matsuo-lab/weblab-10b-instruction-sft
- 学習データ
stabilityai/japanese-stablelm-base-alpha-7b
- 学習データ
stabilityai/japanese-stablelm-instruct-alpha-7b
- 学習データ
stabilityai/japanese-stablelm-instruct-alpha-7b-v2
- 学習データ
line-corporation/japanese-large-lm-3.6b
stockmark/gpt-neox-japanese-1.4b
rinna/bilingual-gpt-neox-4b-instruction-ppo
- 学習データ
rinna/japanese-gpt-neox-3.6b-instruction-ppo
- 学習データ
cyberagent/open-calm-7b
- 学習データ
- Wikipedia (ja)
- Common Crawl (ja)
日本語LLMのリーダーボード
Nejumi LLMリーダーボード
- Weights & Biases社が公開
- JGLUEを用いて精度評価
- リリース
- Stability AI社が実施しているタスクよりも厳しい条件で実施している
JP Language Model Evaluation Harness
- Stability AI社が公開
- JGLUEを用いて精度評価
The Rakuda Ranking of Japanese AI
- YuzuAIというコミュニティが公開
- 以下のデータセットで評価している
- 2つのモデルの出力をGPT-4に渡し、評価している