全网AI导航
  • AI导航分类
    • AI办公导航
      • 常用AI办公导航
      • AI幻灯片和演示
      • AI思维导图
      • AI文档导航
      • AI表格数据处理
      • AI会议导航
      • AI效率提升
    • AI图像导航
      • 常用AI图像导航
      • AI图片插画生成
      • AI图片背景移除
      • AI图片物体抹除
      • AI商品图片生成
      • AI图片无损放大
      • AI图片优化修复
    • AI编程导航
    • AI写作导航
    • AI对话导航
    • AI开发平台
    • AI搜索引擎
    • AI翻译导航
    • AI视频导航
    • AI设计导航
    • AI音频导航
    • AI娱乐导航
    • 其他AI导航
      • AI学习网站
      • AI内容检测
      • AI训练模型
      • AI提示指令
      • AI模型评测
      • AI法律助手
  • 留言反馈
  • 联系方式
    • AI办公导航
      • 常用AI办公导航
      • AI幻灯片和演示
      • AI思维导图
      • AI文档导航
      • AI表格数据处理
      • AI会议导航
      • AI效率提升
    • AI图像导航
      • 常用AI图像导航
      • AI图片插画生成
      • AI商品图片生成
      • AI图片优化修复
      • AI图片无损放大
      • AI图片背景移除
      • AI图片物体抹除
    • AI编程导航
    • AI写作导航
    • AI对话导航
    • AI开发平台
    • AI搜索引擎
    • AI翻译导航
    • AI视频导航
    • AI设计导航
    • AI音频导航
    • AI娱乐导航
    • 其他AI导航
      • AI学习网站
      • AI内容检测
      • AI训练模型
      • AI提示指令
      • AI模型评测
      • AI法律助手

    AI模型评测

    共 13 篇网址
    AI模型评测
    AI写作导航 AI图像导航 AI办公导航 AI设计导航 AI视频导航 AI音频导航 AI对话导航 AI搜索引擎 AI翻译导航 AI编程导航 AI开发平台 其他AI导航 热门AI导航 AI娱乐导航
    AI学习网站 AI内容检测 AI训练模型 AI模型评测 AI提示指令 AI法律助手
    排序
    发布 更新 浏览 点赞 收藏
    MMLU

    MMLU

    多任务语言理解基准测试,涵盖了 57 个不同的任务领域
    195 0
    AI模型评测
    Open LLM Leaderboard

    Open LLM Leaderboard

    Hugging Face 推出的大语言模型的评估平台
    210 0
    AI模型评测
    HELM

    HELM

    斯坦福大学开源的语言模型评测框架
    185 0
    AI模型评测
    PubMedQA

    PubMedQA

    评估 AI 模型在生物医学领域的阅读理解能力
    143 0
    AI模型评测
    H2O EvalGPT

    H2O EvalGPT

    H2O.ai 开发的 GPT 模型评估导航
    131 0
    AI模型评测
    OpenCompass

    OpenCompass

    上海人工智能实验室推出的专注于对大型语言模型(LLM)的开源评测体系
    140 0
    AI模型评测
    CMMLU

    CMMLU

    专注于中文语境的多任务评估框架
    216 0
    AI模型评测
    Chatbot Arena

    Chatbot Arena

    通过用户投票和对比测试,评估不同聊天机器人模型的开放平台
    257 0
    AI模型评测
    LLMEval3

    LLMEval3

    专注于评估大型语言模型(LLM)性能的开放平台
    146 0
    AI模型评测
    FlagEval

    FlagEval

    北京人工智能研究院(BAAI)开发的开源评估平台
    147 0
    AI模型评测
    C-Eval

    C-Eval

    专注于评估中文语言模型性能的基准测试平台
    176 0
    AI模型评测
    SuperCLUE

    SuperCLUE

    专注于中文语言理解的基准测试平台
    138 0
    AI模型评测
    MMBench

    MMBench

    MMBench 是一个专注于多模态基准测试的平台,旨在评估和...
    253 0
    AI模型评测
    没有了
    Copyright © 2025 全网AI导航 蜀ICP备19029418号-12