聚合搜索引擎 - 壹搜网为您找到"

大模型评测

"相关结果 70条

全国首个金融大模型评测体系升级2.0版,国产模型均分比去年大幅提高

Dec 27, 2025 ... 大模型评测体系通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合,对于大模型行业的标准化发展有至关重要的作用。特别是 ...
www.jfdaily.com

金融大模型评测体系2.0版在上海发布

Dec 29, 2025 ... 大模型评测体系通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合。近年来,国内涌现出多个金融大模型,但行业内还缺少较为权威 ...
www.shanghai.gov.cn

美团LongCat 团队发布全模态一站式评测基准UNO-Bench

Nov 17, 2025 ... 美团LongCat 团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架,不仅能同时精准衡量模型的单模态与全 ...
tech.meituan.com

大语言模型综合能力测评报告2024 - InfoQ

Jan 17, 2024 ... 官方的评测报告我下载看了一下,在编程能力评估这方面和我本人的测试结果相差甚远。 至少目前国内这些大模型还没有一个能和GPT-4相比的。不知道你们是怎么 ...
www.infoq.cn

权威大模型评测:商汤日日新登顶大语言与多模态双榜单 - SenseTime

Mar 14, 2025 ... 此次评测的“通用基础能力”涵盖数理科学、语言能力和道德风险控制三大核心维度。商汤日日新在这三个方面均表现出色,位列第一,得分超越国际均线,展现出多 ...
www.sensetime.com

如何“选”大模型?3家头部企业大模型评测体系建设实践 - 沙丘社区

Oct 11, 2024 ... 对于中文大模型,国内常用的评测基准包括SuperCLUE、C-Eval、FlagEval、OpenCompass等,专注于中文环境下大模型基本能力的评测,这些榜单的结果可以作为企业 ...
www.shaqiu.cn

《通用大模型评测标准》发布 - 新华网

Oct 14, 2024 ... 据介绍,此次发布的评测标准基于“2-4-6”框架:“2”代表两类评测视角,以重点行业实际使用需求为导向,将评测任务划分为理解和生成两类视角;“4”代表四类评测要素 ...
www.news.cn

面向深度思考的中国移动“弈衡”大模型评测体系演进及应用 - 通信世界

Dec 23, 2025 ... 评测结果显示,该模型在理科综合能力领域表现突出,尤其在数学推理与代码编写两大细分场景下展现出显著竞争优势,印证了其推理、代码能力强化的落地效果。
www.cww.net.cn

大模型评测 - HackMD

Nov 7, 2023 ... 评测意义 · 研究评测可以帮助我们更好地理解大模型的长处和短处 · 研究评测可以更好地为人与大模型的协同交互提供指导和帮助 · 研究评测可以更好地统筹和 ...
hackmd.io

大模型评测运营专家(理科/推理)-大模型数据服务中心- 加入字节跳动

1、计算机科学、人工智能、数学、理科、统计学或相关领域的本科及以上学历优先; 2、熟悉提示工程、Functioncall、Agent等基础概念和大模型自动评测,关注行业前沿动态; 3、 ...
jobs.bytedance.com