1、 启动高端企业 AI 咨询服务,客户收费至少1000万美元
据 The 报道, 正在加大其企业 AI 咨询业务的力度,收费标准至少为每位客户1000万美元。公司工程师直接与各组织合作,调整如 GPT-4o 等模型以适应其特定数据,并构建定制应用程序,包括聊天机器人等。这一举措使 与诸如 和 等知名企业展开直接竞争。
提供的服务不仅限于模型定制,还包括数据标注服务。在这一过程中,专家会对 AI 生成的答案进行审核和修正。内部消息人士透露, 正在考虑将部分数据标注工作外包给专业公司,例如 AI 和 Surge AI,以提高效率和准确性。
2、.5Pro API 免费回归,开发者社区热烈响应
近日,谷歌宣布其旗舰AI模型.5Pro的API重新纳入 AI 的免费层级,这一消息引发了开发者社区的广泛关注和热烈讨论。
.5Pro作为谷歌迄今为止最先进的AI模型,以其卓越的多模态能力和强大的推理性能而闻名。该模型支持高达100万token的上下文窗口,能够处理文本、图像、音频和视频等多种输入类型,在编码、复杂推理和数据分析等任务中表现尤为突出。此前,谷歌曾在5月调整 AI 的政策,限制免费用户访问.5Pro系列模型,引发部分开发者对于高性能模型访问成本的担忧。如今,API免费层级的回归无疑是对开发者需求的积极回应。
3、谷歌在全球推行全新 Veo 3 视频生成模型
谷歌宣布正式在全球范围内推出其最新的视频生成模型 Veo3。Veo3现已向超过159个国家的 用户开放,提供全新的视频创作体验。
Veo3视频生成模型的特点在于其能够让用户通过简单的文本提示生成最多八秒钟的视频。Veo3目前仅对谷歌的 AI Pro 计划付费用户开放,且每日生成视频的数量限制为三段。这一措施旨在保证资源的合理分配,同时也鼓励用户更加珍惜和认真对待每一次视频创作的机会。
4、开源 R1 增强版:推理效率提升200%,降低成本
近日,德国知名技术咨询公司 TNG 发布了 的增强版 ——-TNG-R1T2-,标志着深度学习模型在推理效率和性能上的又一次重大突破。这一新版本不仅在推理效率上提升了200%,而且通过创新的 AoE 架构显著降低了推理成本。
版本是基于 的 R1-0528、R1和 V3-0324三大模型的混合开发,采用了全新的 AoE( )架构。这一架构通过对混合专家(MoE)架构的细致优化,能够高效地利用模型参数,从而提升推理性能并节省 token 输出。
5、 推出每月200美元“Max”订阅服务,解锁高级AI模型与独家功能
现已推出每月200美元的 AI 订阅服务 Max。这项新订阅旨在为用户提供一系列增强功能,包括访问“顶级高级 AI 模型”以及抢先体验即将推出的 Comet 浏览器等独家福利。 Max 订阅服务目前可在网页版和 iOS 应用上使用。
6、百度重磅开源文心大模型 4.5 系列
近日,百度正式宣布开源其文心大模型4.5系列,共推出了十款模型,包括47B、3B 激活参数的混合专家(MoE)模型,以及0.3B 参数的稠密型模型。此次开源不仅实现了预训练权重的完整公开,还提供了推理代码,标志着百度在大模型领域的重大进展。
这些新发布的模型可以在飞桨星河社区、 Face 等平台上下载和部署,同时,百度智能云千帆大模型平台也提供了相应的 API 服务。这一举措使百度成为国内继腾讯、阿里、字节跳动之后,又一家积极参与开源的科技巨头,表明其在大模型应用时代的决心。
7、百度发布全球首个中文音视频生成模型 ,颠覆创作方式
近日,百度商业研发团队于7月2日宣布推出一款革命性的视频生成模型 “”,并同时发布了创作平台 “绘想”。这一创新的技术标志着全球首个实现中文音视频一体化生成的模型正式问世,必将为内容创作领域带来深远的影响。
的最大亮点在于其卓越的协同创作能力,能够将画面、音效以及人声台词完美结合,生成高质量的视频内容。根据官方介绍,该模型在权威榜单 I2V 中获得了89.38% 的总分,荣登全球第一。这一成绩不仅体现了其强大的技术实力,也为内容创作者提供了更加便捷、高效的创作工具。
8、豆包“深入研究”功能在豆包APP、网页版及电脑版开启测试
近日,豆包APP、网页版及电脑版平台迎来新功能测试——「深入研究」功能已正式上线,供用户免费体验。
9、阿里Ovis-U1震撼发布:多模态AI三合一,开源赋能全球开发者
6月29日,阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**,标志着其在多模态人工智能领域的又一重大突破。作为Ovis系列的最新力作,Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体,展现了强大的跨模态处理能力,为开发者、研究者和行业应用提供了全新的可能性。
10、字节发布创新图像合成技术:对多个个体进行独立且精确的控制
近日,字节 正式发布其最新图像合成技术 ——,旨在提供高精度的多主体图像生成解决方案。这项创新的技术使得用户能够对多个个体进行独立且精确的控制,极大地提升了个性化和复杂场景生成的能力。
的核心在于其独特的 DiT 调制方法,能够在不影响整体图像潜在特征的情况下,对每个主体的身份和语义属性进行调控。通过将参考图像转化为特定于令牌的文本流偏移量, 使得图像合成更加灵活和直观,用户只需简单的文字描述,即可生成符合预期的高保真图像。
11、字节跳动开源新模型-3B:支持上下文连续图像编辑
字节跳动宣布开源-3B,一款支持上下文连续图像编辑的3亿参数模型,基于其内部MM-DiT架构开发。这款模型突破了传统图像编辑的局限,首次实现从单一视频数据中学习上下文感知的图像编辑能力,无需依赖复杂的分割或修复模型生成训练数据。-3B的发布为创意设计、影视后期及内容生成领域带来了全新的可能性。深入剖析其技术亮点、应用场景及行业影响。
12、腾讯开源 -A13B:小尺寸,大智慧的 AI 模型
-A13B 是一个由腾讯最新开源的大语言模型,它以创新的设计理念,在相对较小的活跃参数规模下,实现了强大的性能表现,特别适用于资源受限的环境。
这款模型采用了细粒度 MoE(-of-)架构,拥有130亿活跃参数,但总参数量高达800亿。这种设计让它在保持高效和可扩展性的同时,能够提供前沿的推理能力和通用应用支持。
-A13B 的核心功能亮点包括:
Ø支持快慢思维的混合推理模式:这种独特的推理机制让模型能够根据任务需求灵活调整思考深度,提升处理复杂问题的效率。
Ø原生256K 超长上下文理解能力:这意味着模型可以处理极长的文本输入,使其在需要大量背景信息的任务中表现出色。
Ø在智能体任务上的卓越表现:-A13B 在执行各类智能体(Agent)相关任务时展现出强大的能力。
在多项基准测试中,-A13B 都展现出强大的竞争力,尤其是在数学、科学、编码、推理和智能体领域。
腾讯为开发者提供了全面的支持,包括使用 Face 进行交互和模型训练的详细指南。同时,对于模型部署,-A13B 也提供了通过 -LLM、vLLM 和 的支持,并提供了预构建的 镜像和量化模型部署方案,大大简化了部署流程。
13、华为开源盘古7B稠密和72B混合专家模型
6月30日,华为于正式宣布开源盘古70亿参数的稠密模型、盘古Pro 亿参数的混合专家模型,以及基于升腾的模型推理技术。
目前,盘古Pro 模型权重、基础推理代码,以及基于升腾的超大规模MoE模型推理代码,均已正式上线开源平台。盘古7B相关模型权重与推理代码也将在近期上线。
14、富士康推出首款AI推理大模型 “”
“” 是鸿海研究院重磅推出的 AI 推理大模型,涵盖数据分析、数学推理、代码生成等多个功能,功能丰富,极具潜力。富士康声称, 的初始版本基于 Meta 的 .1模型进行开发,使用了120块英伟达 进行了为期一个月的训练。这一模型特别针对繁体中文进行了优化,尽管其性能相较于其他模型,如 ,可能稍显不足。
15、智谱AI开源GLM-4.1V-:多模态推理模型再突破
智谱AI正式开源最新一代通用视觉模型GLM-4.1V-,基于GLM-4V架构,新增思维链推理机制,显著提升复杂认知任务能力。该模型支持图像、视频、文档等多模态输入,擅长长视频理解、图像问答、学科解题、文字识别、文档解读、、GUI Agent及代码生成等多样化场景,覆盖千行百业的应用需求。
GLM-4.1V-9B-在28项权威评测中表现卓越,其中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL,涵盖、MMMU-Pro、、等基准测试。其9亿参数规模结合高效推理能力,使其可在单张3090显卡上运行,且提供免费商用授权,极大降低了开发者门槛。
智谱AI表示,GLM-4.1V-通过强化学习与课程采样技术,优化了跨领域推理能力,展现出对复杂问题的深度思考与解决能力。模型已上线,供全球开发者免费体验。业界认为,此举将推动多模态AI在教育、科研、商业等领域的广泛应用,标志着智谱AI在通用人工智能道路上的又一里程碑。
16、新开源 AI 系统 2,融合了图像和文本生成
近日,北京人工智能研究院推出了全新的开源系统 ——。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。
的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型(MLLM)。在图像生成方面,该系统使用了一种自定义的扩散变换器,参数量达到约40亿。模型在遇到特殊的 “” 标记时会自动切换到图像生成模式。值得一提的是,能够处理多种提示和艺术风格,但其生成的照片级图像在清晰度上仍有待提升。
尽管 在多个基准测试中表现优异,但仍存在一些不足之处:英文提示的效果优于中文,身体形态的变化较为复杂,输出质量也受到输入图像的影响。对于模糊的多图像提示,系统需要明确的对象放置指示。
17、开源端到端语音大模型Step-Audio-AQAA:听懂音频直接生成自然语音
在人工智能领域,尤其是生成式对抗网络(AIGC)方面的不断进展,语音交互已成为一个重要的研究方向。传统的大语言模型(LLM)主要专注于文本处理,无法直接生成自然语音,这在一定程度上影响了人机音频交互的流畅性。
为了突破这一局限,Step-Audio 团队开源了一款全新的端到端语音大模型 ——Step-Audio-AQAA。该模型能够直接从原始音频输入生成自然流畅的语音输出,使得人机交流更加自然。
18、昆仑万维再次开源奖励模型–V2
7月4日,昆仑万维乘势而上,继续开源第二代奖励模型–V2系列。此系列共包含8个基于不同基座模型、参数规模从6亿到80亿不等的奖励模型,一经推出便在七大主流奖励模型评测榜单中全面夺魁,成为开源奖励模型领域的焦点。
19、发布全球首个开源大规模AI模型
近日,上海的 AI 独角兽公司 正式推出了全球首个开源大规模混合架构推理模型 ——-M1。该模型一经推出,便迅速跻身权威评测榜单,成为全球开源模型的第二名,仅次于近期发布的 -R1-0528。
该模型在长文本处理和工具调用等方面显示出强大的优势,支持高达100万 token 的上下文输入能力,足以一次性处理整部《三体》英文原著。这一性能是 同类模型的八倍,甚至可以与谷歌最新的闭源模型 .5Pro 相媲美。
在强化学习阶段的研发投入仅为53.5万美元,远低于业内普遍的千万级研发成本,展现了其卓越的研发效率和产品化能力。在 M1发布后的短短四个工作日内, 便接连推出了多款创新产品,包括视频生成模型 、通用智能体 Agent、视频创作智能体 Video Agent 及音色设计工具 Voice ,保持着令人瞩目的 “日更” 节奏。
20、 开源 AI Agent系统强势登顶,基于 Qwen3-32B
知名大模型训练平台 .ai 与 联合推出了开源 AI Agent框架 。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。
根据 SWE-Bench- 测试结果, 在64k 的最大上下文长度和100的最大环境步骤下评估,经过16次运行,Pass@1准确率达到了42.2%。经过混合测试后,其性能更是提升至59%,使其在所有开源代理框架中位列榜首。
的训练采用了 rLLM 框架,这是一个专门用于语言智能体后期训练的系统。它在64个 上,对来自 R2E-Gym 训练环境的4500个真实世界软件工程任务进行了为期6天的训练。这些任务包括解决 问题、实现新代码功能和调试等,展示了现实世界软件工程的多样性。
21、TEN VAD开源:企业级语音检测神器,打造超智能AI语音助手
近日,TEN Agent团队宣布将其企业级实时语音活动检测器(TEN VAD)正式开源,这一突破性举措引发行业热议。TEN VAD以帧级精度的语音检测能力和优于 VAD及 VAD的性能表现,成为构建实时对话语音助手的强力引擎。
TEN VAD是一款基于深度学习的轻量级、低延迟语音活动检测(VAD)模型,专为企业级应用设计。它能够精确识别音频帧中的人类语音,过滤背景噪音、沉默等非语音内容。相较于业界常用的 VAD和 VAD,TEN VAD在多样化场景测试中展现出更高的准确性和更低的误报率,尤其在复杂噪声环境下表现出色。其帧级检测能力确保了语音与非语音过渡的快速识别,为实时对话系统提供了坚实基础。
22、推出Crome:提升大型语言模型对人反馈的对齐能力
在人工智能领域,奖励模型是对齐大型语言模型(LLMs)与人类反馈的关键组成部分,但现有模型面临着 “奖励黑客” 问题。
这些模型往往关注表面的特征,例如回复的长度或格式,而不是识别真正的质量指标,如事实准确性和相关性。问题的根源在于,标准训练目标无法区分训练数据中存在的虚假关联和真实的因果驱动因素。这种失败导致了脆弱的奖励模型(RMs),从而生成不对齐的策略。为了解决这一问题,需要一种利用因果理解来训练 RMs 的新方法,以便对因果质量属性敏感,并对各种虚假线索保持不变。
23、 Labs 开源 TTS:低延迟流式文本转语音技术
7月3日,法国AI研究机构 Labs宣布开源其最新文本转语音(TTS)技术—— TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。 TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。
在语言支持与质量评估方面, TTS目前支持英语和法语,单词错误率(WER)分别为2.82和3.29,展现出高准确度。说话者相似度达到77.1%(英语)和78.7%(法语),确保语音自然且接近原始样本。模型还能处理长篇文章,突破传统TTS的30秒限制,适合新闻、书籍等长篇内容生成。
24、云计算巨头 推出 “按爬虫付费” 市场,让网站内容变现更轻松
近日宣布推出一个颠覆性的市场 ——“按爬虫付费”,旨在重塑网站拥有者与人工智能(AI)公司的关系。这一全新市场将帮助内容出版者更好地控制他们的内容,同时为 AI 公司提供一种公平的抓取内容的方式。
过去一年, 为应对 AI 爬虫的激增推出了多项工具,包括一键阻止所有 AI 爬虫的解决方案和监控 AI 爬虫访问情况的仪表板。
在 “按爬虫付费” 市场中,网站拥有者可以决定让 AI 爬虫以特定的费率抓取他们的网站,或选择免费开放,甚至完全阻止爬虫访问。这种模式为网站提供了更多选择,使其能够掌控内容的使用权。
这一市场的推出恰逢新闻出版行业面临巨大挑战之际,特别是在谷歌搜索流量逐渐减少和 AI 聊天机器人日益流行的背景下。尽管一些大报社已经与科技公司签署了内容授权协议,但绝大多数中小型出版者依然没有获得公平的收益分配。 希望通过这一创新的商业模式,为更多出版者提供可持续的收入来源。
同时, 还宣布,所有新建网站将默认阻止AI爬虫,网站拥有者必须单独授予某些爬虫权限。这一措施得到了包括康泰纳仕、时代杂志、美国新闻社等多家大型出版商的支持,大家都期望借此实现 “基于许可的抓取” 模式。
然而,AI 时代给出版商带来的挑战不容忽视。最新数据显示,AI 爬虫的抓取频率远高于谷歌爬虫。以 的爬虫为例,它每次为出版商带来的推荐流量竟需被抓取1700次,而 更是需要73000次。这使得出版商在依赖用户访问网站的商业模式上面临严峻考验。
还表示,该市场的真正潜力在于未来 “智能代理” 的广泛应用。想象一下,用户通过智能代理程序获取最新的科研成果或法律信息,而这些代理程序可以按需为优质内容付费。
参与这一实验的 AI 公司和出版商需在 上注册账户,通过平台设定价格和交易。虽然目前没有使用加密货币, 的 CEO 暗示未来可能会探索使用稳定币进行交易。
的 “按爬虫付费” 市场为出版者提供了一条新的盈利路径,虽然还面临诸多挑战,但其潜力不可小觑。
25、 版权诉讼新进展:纽约时报将可访问已删除的用户数据
323AI导航网发布