本文详细介绍了及其应用场景,涵盖了大模型的发展历程、基本原理和分类(通用与推理模型)。文章分析了的具体特性、性能优势、低成本训练与调用特点,以及其技术路线(如MoE、MLA架构),并与竞品进行了对比。此外,还探讨了在金融风控等领域的应用前景。
一、大模型发展回顾
1.1. 大模型发展历程
2024年5月,发布了GPT-4o,模型能够处理和生成文本、图像和音频。GPT-4o 在语音、多语言和视觉基准测试中取得了最先进的成果,创造了语音识别和翻译的新纪录。
2024年7月,发布了GPT-4o mini,取代 界面上的 GPT-3.5 Turbo,API 成本显著降低,适用于企业、初创公司和开发者。
2024年9月, 发布了 o1-(更适合推理任务)和 o1-mini(更适合编程任务)模型,这些模型设计为在生成回答时花费更多时间思考,从而提高准确性。
2024年12月, 发布了 o1,比 o1- 更智能、更快,功能更多(比如多模态功能)
2025年2月, 发布了o3-mini,o3-mini在大多数情况下o3-mini比o1-mini产生更准确、更清晰的答案,同时响应更快,其平均响应时间为7.7秒,较o1-mini的10.16秒提升了24%。
2025年2月9日,发布全新的智能体-deep ,可以进行网络浏览和数据分析,可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件,并根据搜集的信息进行灵活调整。
2025年2月9日,表示内部已达到了GPT-4.5,表示接下来的重点是高能力的推理模型、多模态以及智能体。
2025年2月28日,发布GPT-4.5,最大、知识最丰富、情商最高的大模型。
*GPT-4o的o表示omni,意为“全知全能的”;o1/o3的o表示.
从的发展过程看大模型的发展趋势:
1.2. 大模型基本原理
大模型是如何构建的?
引用论文 Large : A
核心的三个步骤: 预训练,有监督微调和人类反馈强化学习。
1.3. 推理模型与通用模型
大模型发展至今,可以分为: 通用大模型与推理大模型。
思维链(Chain of , CoT)通过要求/提示模型在输出最终答案之前,显式输出中间逐步的推理步骤这一方法来增强大模型的算数、常识和推理的性能。从该角度,可以将大模型的范式分为两类: 概率预测(快速反应模型)和链式反应(慢速思考模型),前者适合快速反馈,处理即时任务,后者通过推理解决复杂问题。
一个例子,问: 1+2+3+4+5+6+7+8+9+10=多少,直接告诉我答案
二、
2.1. 是什么
主流模型的竞品对标
2.2. 可以做什么
直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景,支持联网搜索与深度思考,同时支持文本上传,能够扫描读取各类文件及图片的文字内容。
2.3. 的模型对比
2.3.1. 模型发展史
资料来源: 彩云之南公众号,浙商证券研究所。
相关链接2
我们常说的的大模型,是指当前主流的-V3和-R1。
2.3.2. V3与R1的对比与选择
总结: 不考虑调用成本,复杂推理任务(例如数学、代码等)或者希望获取思维链,优先-R1;内容创作、文本生成等优先-V3。
2.3.3. 竞品-的大模型
*o3-mini的一个介绍: , o1-mini的一个介绍: , GPT-4o的一个介绍: , GPT-4o-mini的一个介绍:
2.3.4. 竞品-通义千问的大模型
引用: 通义千问官网
2.4. 为什么大火
2.4.1. 性能优越
*AIME 2024: 数学题,涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。
*MATH-500: 包含500个测试样本的MATH评测集,全面考察数学解题能力。
*GPQA: 研究生水平的专家推理,一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。
2.4.2. 训练便宜
结论: -V3 较 竞品,训练成本约为1/20~1/3
*注, H800为针对中国市场定制,性能和价格略低于H100.
2.4.3. API调用便宜
结论: -V3 API调用价格约为 o3-mini的1/4,为GPT-4o的约1/10. 但要高于GPT-4o-mini, 性能强于GPT-4o-mini.
以下为当前调用价格,以token为单位,1个英文字符约0.3个token,1个中文字符约0.6个token,即1 token可对应1-2个中文汉字,或对应3-4个英文字符,或0.75个英文单词,截止到2025年2月8日
*o3 mini思维链: 2025年2月7日,公开o3 mini思维链,业界猜测非原始思维链,而是总结之后的思维链输出。
*缓存命中: 在大模型 API 的使用场景中,用户的输入有相当比例是重复的。举例说,用户的 往往有一些重复引用的部分;再举例说,多轮对话中,每一轮都要将前几轮的内容重复输入。启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中。如果输入存在重复,则重复的部分只需要从缓存读取,无需计算。该技术不仅降低服务的延迟,还大幅削减最终的使用成本。
*MMLU(大规模多任务语言理解)是一种新的基准测试,涵盖STEM、人文、社会科学等57个学科,有效地衡量了综合知识能力。
2.4.4. 其它因素
2.5. 为什么又好又省-技术路线
2.5.1. 主要技术路线
参考: -v3技术文档
2.5.2. of (MoE) 混合专家模型
MoE在NLP、CV、多模态和推荐系统中有广泛的应用(时间线上面的开源,下面的闭源)。
参考: A on of
两种典型的MoE: Dense MoE VS. MoE
往往会带来负载均衡问题,即专家工作量的不均衡分布,部分专家频繁更新,其它专家很少更新,大量研究专注于解决负载均衡问题。
的MoE结构:
-R1: 1个共享的专家+63个路由的专家,每个专家是标准FFN的1/4大小.
2.5.3. Multi-Head (MLA)
2.5.4. R1的训练范式:冷启动与多阶段RL
参考: 知乎@绝密伏击
2.6. 与竞品对比
2.6.1. 几个竞品的对比
项目/模型
-R1
GPT-4o
豆包
模型定位
专注高端推理和复杂逻辑问题
通用大模型,旨在处理多任务、多模态
中文环境,面向C端用户,轻量化、娱乐化
是否开源
否,商业化产品
擅长功能
复杂推理,例如数学、代码
通用语言生成、
多模态理解
拟人化聊天、创意内容生成、图像生成
定制化程度
高;用户可修改模型行为并针对特定用例进行优化
低;主要通过API调用于提示工程进行微调
低;提供API服务,灵活性低
硬件要求
温和;部署对硬件要求相对适中
不适用;仅通过基础设施上的API提供
作为云端产品,无需自建硬件,后端依赖云计算集群
多模态支持
暂无,可用Janus-Pro多模态大模型
强多模态能力,支持文本、图像等输入
一定的多模态支持
用户群体
开发者、企业用户、专业研究者
全球阻留用户、企业客户和开发者,高端市场
普通消费者、内容创作者,字节生态
2.6.2. 的缺点2.6.3. 的影响
推动了大模型开源进程,作为鲶鱼,让全球大模型竞赛进一步提速。
2.7. 使用建议
提示词库
2.7.1. 使用的不同点
2.7.2. R1的正确打开方式
对于推理大模型,存在欺骗技巧失效和“启发式提示”失效的问题:
参考: 知乎田威AI
2.7.3. 使用建议
+++
参考链接:
介绍一下%%20o3-mini
RDS+构建一站式HTAP
通过融合MySQL和的数据同步能力,用户可以在一个可视化窗口中简单灵活地配置和管理实时数据同步,这为业务报表统计、交互式运营分析和实时数仓构建提供了便利。
323AI导航网发布