AI模型评测

共 13 篇网址

AI模型评测

MMLU

多任务语言理解基准测试，涵盖了 57 个不同的任务领域

195 0

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face 推出的大语言模型的评估平台

210 0

HELM

斯坦福大学开源的语言模型评测框架

185 0

PubMedQA

评估 AI 模型在生物医学领域的阅读理解能力

143 0

H2O EvalGPT

H2O.ai 开发的 GPT 模型评估导航

131 0

OpenCompass

上海人工智能实验室推出的专注于对大型语言模型（LLM）的开源评测体系

140 0

CMMLU

专注于中文语境的多任务评估框架

216 0

Chatbot Arena

通过用户投票和对比测试，评估不同聊天机器人模型的开放平台

257 0

LLMEval3

专注于评估大型语言模型（LLM）性能的开放平台

146 0

FlagEval

北京人工智能研究院（BAAI）开发的开源评估平台

147 0

C-Eval

专注于评估中文语言模型性能的基准测试平台

176 0

SuperCLUE

专注于中文语言理解的基准测试平台

138 0

MMBench

MMBench 是一个专注于多模态基准测试的平台，旨在评估和...

253 0

没有了