自然语言处理‌ 人工智能的科普文:从原理到落地

默认分类18小时前发布 admin
3,487 0
ChatGPT国内版

人工智能已经渗透到生活的方方面面,但很多人依然觉得它神秘莫测。本文用简洁通俗的描述带你快速建立AI知识体系,揭秘技术背后的逻辑!

人工智能是什么

AI(人工智能)是指让机器像人一样感知外界环境,思考,决策,执行。相比较能够优化资源配置的传统产品(如打车软件提升匹配效率),人工智能产品改变生产要素本身(如自动驾驶无需驾驶员)。人工智能的本质是实现推断的概率可以无限逼近100%,最终替代人类做判断,完成任务,甚至超越人类的思维和判断能力。人工智能产品/服务能否被人们认可取决于从概率上能否大范围满足用户需求,不同的场景,概率需求不同。例如输入某个器官的医学影像,需要准确地判断出该影像是身体的哪个器官。例如电商平台的个性化推荐,按照用户标签推荐与之相匹配的若干商品便可,并不是要求100%匹配。

算法支持

算法是解决问题的明确步骤和规则集合,使用各种算法对数据进行训练后生成的“中间件”(模型),当数据输入到模型后会有相应的结果输出。

在人工智能(AI)领域,算法是机器学习深度学习大模型的实现手段,是AI应用的基础支持。例如常见的应用—机器视觉(涉及图像和视频的分析)和自然语言处理(处理文本和语言)。

机器学习(ML)是实现AI的核心技术手段,让机器通过数据学规律,通过数据训练模型实现预测或决策,比如用历史数据教机器识别猫狗。主要涵盖监督学习、无监督学习和强化学习三大范式

深度学习(DL)是ML的高阶形式,用神经网络算法(CNN、RNN等)自动提取特征,比如让机器看懂复杂图片或听懂语言。

大模型是DL的规模化产物,以算法为核心支撑,结合算力与数据实现突破。以为例,其底层是算法(深度学习),通过海量数据预训练(机器学习框架),最终形成千亿参数的大模型,支持多轮对话、代码生成等复杂任务。

算力支持

算力指的是算法模型需要的系统架构支撑,其中硬件资源包括计算芯片、存储以及构成产品的硬件组件等。企业在使用满足某个业务场景需求的大模型服务时,要从数据安全性,模型应用领域,研发复杂度,研发周期,硬件成本等多方面综合考虑。主要有以下几种方式

1、调用厂商/MaaS平台API:直接调用第三方平台的服务,大模型本身和算力支持都不需要考虑,按需付费,适合初创企业,非核心业务场景。缺点是无法深度定制模型,依赖平台能力。业务数据需明码上传第三方,存在数据安全隐患。

自然语言处理‌ 人工智能的科普文:从原理到落地

2、购买模型私有化部署+租用算力平台:模型本地部署,规避外部数据泄露风险。租用算力(如云服务)按需扩容,降低初期投入。适合中大型企业、对数据安全敏感但算力资源有限(如金融风控)。缺点是长期使用算力租赁费用可能较高,需维护模型与云平台的兼容性。

3、购买模型私有化部署+自建算力平台:数据、模型、算力均在企业内部闭环,一次性投入硬件后,长期使用成本递减。适合中大型企业、对数据安全敏感且可以提供算力资源。缺点是需采购服务器、GPU 等硬件,建设周期长,需专业团队维护算力集群。

4、自研模型+租用算力平台:模型架构与业务需求完全匹配,掌握核心算法。适合技术驱动型、垂直领域深度优化企业。缺点是研发投入大,需顶尖算法工程师与海量标注数据。训练依赖外部算力,可能受供应商限制。

5、自研模型+自建算力平台:从算法到硬件完全独立,无外部依赖,形成企业独有的 AI 竞争力。适合巨头企业、国家战略级项目(如自动驾驶全栈自研)。缺点是成本高,研发 + 硬件投入需数千万至亿元级资金。周期长,模型研发与算力建设需 1-3 年时间甚至更久。

数据支持

大模型自身并不直接存储原始训练数据,而是通过海量参数(参数规模通常达百亿至万亿级别)将训练数据中的知识、模式和规律以数学形式压缩存储。

数据流转

大模型问世的完整流程可分为以下五个核心阶段,每个阶段都和数据息息相关:

1. 数据获取:通过互联网抓取、公开数据集、行业数据库等多渠道收集海量文本、图像等多模态数据。

2、数据预处理:清洗数据,如过滤广告、修正错误语句、丢掉错误数据。通过分词、向量化将文本转化为机器可读格式。

3、通用模型训练:使用分布式计算框架在万卡级GPU集群训练万亿参数模型,采用检查点机制(每隔一段时间保存状态)应对硬件故障。

4、垂直领域/特定任务微调:在通用模型上注入行业知识,生成垂直化领域应用的模型。

5、应用部署:投入应用后持续监控用户反馈。

检索增强生成(RAG)

参数固化的是训练截止时的数据知识。例如2025年前的模型参数无法包含2025年后的事件(如新政策或科研成果)。并且大模型中也无法整合企业的私有化数据。现代大模型常通过检索增强生成(RAG)突破参数的知识边界,来解决私域数据整合和模型知识时效性约束的问题。具体的方式为实时接入互联网搜索最新信息和对接企业知识库补充私有知识库等。

自然语言处理‌ 人工智能的科普文:从原理到落地

RAG(- )主要分为检索,增强,生成三个阶段,该技术结合了信息检索()与文本生成()两大能力。当用户提问时,RAG 会先检索外部知识库(如企业文档、法律条文或医学文献),再将检索结果作为上下文输入大模型,最终生成融合实时信息的答案。这一机制使其既能保持生成模型的自然语言表达能力,又能通过检索增强解决知识更新滞后和幻觉问题。

下图为对接企业私有知识库的简易流程:

1、把企业原有数据切割成知识块,为了让计算机处理,需要将文字转化成向量,统一存储到向量数据库中(企业私有的知识库)

2、用户提问问题,同样做切割还有向量化处理。然后从企业私有数据库中检索出合适的参考文档

3、整合提问和参考文档,输入大模型,得到答案

微调

微调的本质是参数优化,通过少量数据调整预训练模型的权重,使其适应新任务,固化专业知识或固定流程的领域(如医疗报告生成、法律合同审核)。微调直接修改模型能力,而RAG通过外部知识库检索补充答案,两者在知识更新成本、响应速度上形成互补。需要注意的是微调可能会产生把之前模型具备的某种能力调成更差的情况。RAG和微调的区别详见下图

技术选型

随着AI技术的成熟,越来越多的AI产品应用在行业生产以及日常生活中。以下是常见的应用以及采用技术的举例。

在项目中,如何选择更合适的模型呐?根据不同的需求场景,不同的任务类型去选择能实现相关功能的模型,例如图生文,语音转文字,数字人,金融模型等。在能满足需求的情况下尽量选择小尺寸模型,参数越小速度越快越便宜。还要考虑模型的一些限制,例如长文本的处理能力(输入输出限制),是否能调用外部工具。token是AI产品运营的最大指出项,所以购买API时要看每万token的费用。接入模型之后需要调整输出结果的最大token数,输出结果的多样性程度等配置信息。

小结

本篇文章从人工智能的定义,人工智能的三要素—算法、算力 、数据,人工智能的应用以及模型选择等方面给大家搭建了AI知识体系,从原理到落地一网打尽。最近一直在学习AI相关的知识,后续将会为大家持续分享~

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...