聚合搜索引擎 - 壹搜网为您找到"

大模型评测

"相关结果 70条

全国首个金融大模型评测体系升级2.0版，国产模型均分比去年大幅提高

Dec 27, 2025 ... 大模型评测体系通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合，对于大模型行业的标准化发展有至关重要的作用。特别是 ...

www.jfdaily.com

Dec 29, 2025 ... 大模型评测体系通常是评估大模型的性能、安全性、可靠性等方面的指标、方法、基准和流程的集合。近年来，国内涌现出多个金融大模型，但行业内还缺少较为权威 ...

www.shanghai.gov.cn

Nov 17, 2025 ... 美团LongCat 团队提出了一套高质量、多样化的一站式全模态大模型评测基准——UNO-Bench。该基准通过一个统一的框架，不仅能同时精准衡量模型的单模态与全 ...

tech.meituan.com

Jan 17, 2024 ... 官方的评测报告我下载看了一下，在编程能力评估这方面和我本人的测试结果相差甚远。至少目前国内这些大模型还没有一个能和GPT-4相比的。不知道你们是怎么 ...

www.infoq.cn

Mar 14, 2025 ... 此次评测的“通用基础能力”涵盖数理科学、语言能力和道德风险控制三大核心维度。商汤日日新在这三个方面均表现出色，位列第一，得分超越国际均线，展现出多 ...

www.sensetime.com

Oct 11, 2024 ... 对于中文大模型，国内常用的评测基准包括SuperCLUE、C-Eval、FlagEval、OpenCompass等，专注于中文环境下大模型基本能力的评测，这些榜单的结果可以作为企业 ...

www.shaqiu.cn

Oct 14, 2024 ... 据介绍，此次发布的评测标准基于“2-4-6”框架：“2”代表两类评测视角，以重点行业实际使用需求为导向，将评测任务划分为理解和生成两类视角；“4”代表四类评测要素 ...

www.news.cn

Dec 23, 2025 ... 评测结果显示，该模型在理科综合能力领域表现突出，尤其在数学推理与代码编写两大细分场景下展现出显著竞争优势，印证了其推理、代码能力强化的落地效果。

www.cww.net.cn

Nov 7, 2023 ... 评测意义 · 研究评测可以帮助我们更好地理解大模型的长处和短处 · 研究评测可以更好地为人与大模型的协同交互提供指导和帮助 · 研究评测可以更好地统筹和 ...

hackmd.io

1、计算机科学、人工智能、数学、理科、统计学或相关领域的本科及以上学历优先； 2、熟悉提示工程、Functioncall、Agent等基础概念和大模型自动评测，关注行业前沿动态； 3、 ...

jobs.bytedance.com

上一页 2 3 4 5 6 7 8 9 10 11 下一页