AI模型部署‌ 三大AI巨头同时发布新模型

默认分类2个月前发布 admin

3,002 0 0

对于关注新模型发布的技术爱好者来说，今天简直就是八月的圣诞节。、和这三大巨头同时发布了全新的大语言模型版本，为我们带来了一份丰厚的技术大礼。

开源模型

首先，技术社区迎来了 OSS 120b和OSS 20b，这是该公司自 2以来首批开放权重系统。需要注意的是，尽管这些模型采用许可证，但并非传统意义上的完全开源——权重开源，但训练数据不开源。

据报告显示，较大的OSS模型在单个80GB GPU芯片驱动下，在推理能力方面与o4-mini模型”达到同等水平”。较小的模型则可以在智能手机和其他边缘设备上运行。这些模型采用MXFP4量化技术，这是一种用于加速矩阵乘法的低精度数据类型。

让模型自由思考

新OSS模型的另一个有趣方面与思维链相关，这项技术彻底改变了推理过程，同时也引发了关于比较方法论的问题。

基本上，我们希望大语言模型准确，但工程师发现，在许多情况下，限制或过度指导系统会导致它们”隐藏”思维链。因此，选择不以这种方式优化模型。

根据的模型卡报告：”在我们最近的研究中，我们发现监控推理模型的思维链有助于检测不当行为。我们进一步发现，如果直接对思维链施加压力以避免’不良想法’，模型可能学会隐藏其思维过程，同时仍然存在不当行为…基于这些担忧，我们决定不对两个开放权重模型的思维链施加任何直接的优化压力。”

AI模型部署‌ 三大AI巨头同时发布新模型

因此，为了透明度，模型被允许产生这些”不良想法”。诚实地承认了更高的幻觉风险，让用户知道已经做出了这种权衡。

Opus 4.1

8月5日，发言人这样宣布了这款新模型：”今天我们发布 Opus 4.1，这是 Opus 4在智能体任务、实际编程和推理方面的升级版本。我们计划在未来几周内发布更大幅度的模型改进。Opus 4.1现已向付费用户开放，并在 Code中提供。它也可通过我们的API、和 Cloud的 AI获得。定价与Opus 4相同。”

新的Opus 4.1模型提升了SWE-Bench 分数，并增强了智能体研究技能。能力分析显示，与Opus 4相比，基于SWE的智能体编程提升了2个百分点(72.5% – 74.5%)，GPQA 研究生级推理能力有所改进(79.6% – 80.9%)，视觉推理和智能体工具使用也有轻微提升。

据行业数据显示，实现了惊人的增长，年度经常性收入在短短七个月内从10亿美元跃升至50亿美元，增长了五倍。然而，该公司的快速崛起也带来了危险的依赖性：其31亿美元API收入中近一半来自仅两个客户——编程助手和微软的，合计产生14亿美元收入。

Genie 3

这是实验室推出的最新Genie系列模型，专门创建受控环境。换句话说，这是一个游戏世界模型。

新模型的支持者称其具有比Genie 2约10秒限制更长的长期记忆，以及更好的视觉保真度和实时响应能力。

声称，新系统可以生成完整的世界，用户可以在高达720p分辨率下持续交互数分钟。此外，该公司表示系统能够以实时延迟响应所谓的”可提示世界事件”。

AI模型部署‌ 三大AI巨头同时发布新模型