测试一下不同的模型在复杂的 agent skill下面的表现。 本次的 SKILL 是用于 PPT 生成的 Skill 完全是自己搭建的。 实际测下来, Kimi K2.5 的注意力和指令跟随都不能让人满意。 MiniMax 2.5 作为性价比模型,指令跟随能力很好,但是发散度不够,考虑到模型参数量,比较符合预期。 GLM4.7/GLM5 是目前相对来讲综合能力和稳定性最好的国产开源,不过考虑到 GLM5 的规模和微弱的提升,似乎GLM4.7才是自部署合理的选择。
www.bilibili.com