聚合搜索引擎 - 壹搜网为您找到"

模型评测平台

"相关结果 54条

安天澜砥大模型登顶CyberSec-Eval评测榜-安天 智者安天下

2025年10月8日,权威网络安全大模型评测平台CyberSec-Eval更新了CS-Eval数据集的评测结果。安天澜砥威胁检测分析垂直大模型...
m.antiy.cn

手动评测-阿里云文档中心

大模型应用手动评测是一种基于应用维度评估应用效果的方法,通过针对特定业务场景来人工构建评测集,并对应用的回答进行人工分析与评分,产出评测报告。效果展示 手动评测通过人工构建评测集,...
help.aliyun.com

【图片】【25-12-03】干货分享◆AI Ping—开发者的大模型服务性能评测利器【计算机科学与技术吧】百度贴吧

AI Ping 的出现不仅填补了大模型服务性能评测领域的空白,以统一评测标准推动行业标准化进程、倒逼供应商提升服务质量、为开发者提供科学选型依据。后续可以进一步丰富多元业务场景的评测维度,...
tieba.baidu.com

大模型评测-鲸林向海

大模型评测体系通常包含基础能力、专业任务、安全性、效率及多模态五大核心维度,以系统化评估模型性能边界。大模型评测体系通常包含基础能力、专业任务、安全性、效率及多模态五大核心维度...
www.itsolotime.com

面向深度思考的中国移动“弈衡”大模型评测体系演进及应用-通信世界网

为科学评估其技术成熟度与应用能力,中国移动技术能力评测中心基于自主构建的“弈衡”大模型评测体系,对13款国内外主流深度思考大模型开展了系统性评测,重点分析了谷歌Gemini 3 Pro、OpenAI GPT-5.1等国外典型模型的表现。结...
zhuanti.cww.net.cn

技术成就梦想51CTO-中国知名的数字化人才学习平台和技术社区

近期南洋理工大学的陶大程教授团队联合东南大学、阿里巴巴等发布了一份综合评测报告,通过对 2 个自回归语言模型和 4 个扩散语言模型在具身智能体(Embodied Agent)和工具调用智能体(Tool-Calling Agent)上的一系列实验,揭示了一个反直觉的发现:扩散语言模型在智能体能力方面存在系统性缺陷,显著落后于同规模的自回归模型!2026-02-13 08:43:00扩散模型 智能体...
www.51cto.com