#grok3能否挑战openai地位##grok3发布# ▼OpenAI 推出了新的模型编码性能基准测试 SWE-Lancer。跟其他 benchmark 最大的不同是它的计量方式:总共100万美元的任务,模型在这些任务里能赚多少美元。▼SWE-Lancer 任务涵盖从 UI/UX 到系统设计的整个工程堆栈,从 50 美元的错误修复到 32,000 美元的功能实施都有。▼任务价格反映了现实世界的价值。更艰巨的任务需要更高的报酬。非常合理!测试结论是,AI 能赚到30-40万美金的钱。另外值得注意的是 Claude3.5 赚的钱超过了 o1 。▼论文地址:网页链接#ai创造营##马斯克grok3大模型发布#