聚合搜索引擎 - 壹搜网为您找到"

模型评测平台

"相关结果 54条

安天澜砥大模型登顶CyberSec-Eval评测榜-安天智者安天下

2025年10月8日，权威网络安全大模型评测平台CyberSec-Eval更新了CS-Eval数据集的评测结果。安天澜砥威胁检测分析垂直大模型...

m.antiy.cn

手动评测-阿里云文档中心

大模型应用手动评测是一种基于应用维度评估应用效果的方法，通过针对特定业务场景来人工构建评测集，并对应用的回答进行人工分析与评分，产出评测报告。效果展示手动评测通过人工构建评测集，...

help.aliyun.com

【图片】【25-12-03】干货分享◆AI Ping—开发者的大模型服务性能评测利器【计算机科学与技术吧】百度贴吧

AI Ping 的出现不仅填补了大模型服务性能评测领域的空白，以统一评测标准推动行业标准化进程、倒逼供应商提升服务质量、为开发者提供科学选型依据。后续可以进一步丰富多元业务场景的评测维度，...

tieba.baidu.com

大模型评测-鲸林向海

大模型评测体系通常包含基础能力、专业任务、安全性、效率及多模态五大核心维度，以系统化评估模型性能边界。大模型评测体系通常包含基础能力、专业任务、安全性、效率及多模态五大核心维度...

www.itsolotime.com

面向深度思考的中国移动“弈衡”大模型评测体系演进及应用-通信世界网

为科学评估其技术成熟度与应用能力，中国移动技术能力评测中心基于自主构建的“弈衡”大模型评测体系，对13款国内外主流深度思考大模型开展了系统性评测，重点分析了谷歌Gemini 3 Pro、OpenAI GPT-5.1等国外典型模型的表现。结...

zhuanti.cww.net.cn

技术成就梦想51CTO-中国知名的数字化人才学习平台和技术社区

近期南洋理工大学的陶大程教授团队联合东南大学、阿里巴巴等发布了一份综合评测报告，通过对 2 个自回归语言模型和 4 个扩散语言模型在具身智能体（Embodied Agent）和工具调用智能体（Tool-Calling Agent）上的一系列实验，揭示了一个反直觉的发现：扩散语言模型在智能体能力方面存在系统性缺陷，显著落后于同规模的自回归模型！2026-02-13 08:43:00扩散模型智能体...

www.51cto.com

上一页 9

时间筛选

所有网页和文件

站点检索