TEN Agent 由 TEN 框架驱动的实时对话式 AI 代理,集成 Gemini 2.0 多模态实时 API、OpenAI 实时 API 与实时通信技术,具备视觉、听觉、语音能力,提供天气查询等高级工具。 PDFMathTranslate 基于 AI 的 PDF 文档全文双语翻译工具,能保留原始排版,支持多种翻译服务,有命令行、图形界面、Docker 部署等多种使用方式。 AGI-Eval 高校和机构联合发布的大模型评测社区,构建公正评测生态,通过模拟考试评估基础模型在人类认知和问题解决相关任务中的通用能力,关联人类决策和认知能力。 LlamaIndex LlamaReport 预览版 能快速将文档数据库转化为结构化可读报告,配备智能文档处理、灵活模板系统、LLM 驱动编辑功能及开发者友好 API 接口,目前处于预览状态。 Google DeepMind Veo 2 和 Imagen 3 模型 Veo 2 可生成 4K 视频,理解现实世界诸多细节,提升逼真度;Imagen 3 在文本语义、色彩等方面有显著提升,发布标志着 Google 在 AI 生成领域的进展,意在挑战 OpenAI 领先地位。 Meta 和斯坦福大学 Apollo 模型 专注视频理解,推出 “Scaling Consistency” 现象与 ApoloBench 评估基准及系列先进模型,解决视频语言任务,处理长视频表现出色,部分模型性能超越大参数量模型,推动视频 LMMs 研究进展。 Meta Byte Latent Transformer (BLT) 架构 无需分词器的大语言模型架构,摒弃传统分词技术,在原始字节序列训练,通过创新技术与基于分词的 LLM 性能匹配,消除分词错误,提高鲁棒性,在基准测试等表现出色。 OpenAI ChatGPT 搜索功能更新 向所有用户免费开放,涵盖性能提升、实时搜索、高级语音模式、多样化搜索结果等多方面,可获取网络信息,语音对话中直接搜索提问并获即时答案。 GitHub Copilot Free GitHub 推出的免费订阅服务,让开发者在 Visual Studio Code 编辑器免费用 GitHub Copilot AI 服务,体验 AI 辅助编程功能,有调用次数限制并支持第三方智能体。 豆包视觉理解模型 有卓越内容识别、强大理解推理、细腻视觉描述和创作能力,成本优势明显,实现性能与经济性平衡,可处理多种复杂任务。 OpenAI O3 及 o1 模型相关情况 O3 能解决复杂数学问题,o1 模型开放 API 接口,有五大核心功能,在 LiveBench 编程基准测试结果领先,官方推出相关语言版本 SDK 测试版并在 GitHub 开源。 ModernBERT 模型 对经典 BERT 架构的现代化升级,帕累托效率图显示在准确度和运行速度上显著提升,适用于检索和分类等实际应用场景。 Meta 2024 年度 Llama 项目进展报告 Llama 成为采用最多模型,下载量超 6.5 亿次,Meta AI 有望年底成全球使用最多 AI 助手,开源社区发布大量衍生产品,社区参与推动产品决策。 阿里云 Qwen2.5 技术报告 发布技术报告展示最新成果,预训练数据规模达 18 万亿 tokens,针对不同场景有多个版本,在多领域展现强大性能。
www.bilibili.com