大语言模型‌ 盘点2023的大语言模型

默认分类6小时前发布 admin
2,991 0
星河超算AI数字人

2023年可谓大语言模型元年,许多大语言模型崭露头角,以 为首的生成式对话模型一枝独秀,在人工智能领域独领风骚,引领着自然语言处理技术的不断成熟。在过去的一年里,伴随着快速发展,生成式人工智能领域涌现出诸多大语言模型,它们八仙过海,各显神通,在国内外都取得了显著的成就,各个国家和地区的企业、机构以及学术界都在积极投入资源和努力,推动大模型技术的发展。在即将过去的2023年岁末年终,让我们一起来盘点今年流行的大语言模型。

2023的大语言模型列表

国外大语言模型汇总

在国外,首当其冲的是 推出的基于 GPT-4 的大型语言模型 ,以优异的表现,吸引了广大科研人员和开发者的关注和参与。除此之外,、、Meta和背后的大型语言模型迅速成为人工智能领域的热门话题,形成了百花齐放百家争鸣的良好格局。

1.Open AI

GPT-4是开发的一款更大、更智能的语言模型。它在模型规模、训练数据和计算资源等方面都进行了大幅度提升。GPT-4的参数量高达1.6万亿,比GPT-3的参数量增加了40倍,同时采用了更先进的训练方法和硬件设施。GPT-4在自然语言生成和对话任务中表现出色,可以流利地表达复杂的概念和情感,并且具备更高的实用性和可靠性。一、GPT-4它能够理解和生成自然语言文本。GPT-4在各种应用场景中都表现出色,如客服、教育、娱乐等。GPT-4拥有强大的语言理解能力,能够推理并生成文本,其表现几乎与人类一样。

DALL·E 2是开发的大型图像生成模型,它可以根据文字描述自动生成图像。DALL·E 2在图像生成方面表现出色,可以生成具有极高分辨率的图像,并且能够准确地表达出文字描述的细节和情感。DALL·E 2不仅可以用于娱乐、创意设计等领域,还可以应用于图像修复、风格迁移等任务。

2.Meta

LLaMA是拥有7B到65B参数的基础语言模型。在数万亿令牌上进行了训练,并展示了使用公开可用数据集训练最先进的模型是可能的,而不必依赖于专有和不可访问的数据集。其中,LLaMA-13B在大多数基准测试中优于GPT-3(175B),而LLaMA-65B与最佳模型,-70B和PaLM-540B,具有竞争力。

3是一个可以与人交互并接收反馈以提高对话能力的对话代理。 3是基于Meta AI公开提供的OPT-175B语言模型构建的,该模型的规模大约是其前身 2的58倍。该模型融合了人格、共情和知识等对话技能,并通过利用长期记忆和搜索互联网来进行有意义的对话。

OPT-IML是基于Meta的OPT模型的预训练语言模型,拥有1750亿个参数。OPT-IML经过微调,以在自然语言任务(如问答、文本摘要和翻译)中获得更好的性能,使用了约2000个自然语言任务进行训练。它在训练过程中更高效,并且比的GPT-3具有更低的CO₂排放量。

3.

大语言模型‌ 盘点2023的大语言模型

LaMDA是一系列专门用于对话的基于的模型。这些模型拥有多达1370亿个参数,并使用1.56万亿个公开对话数据进行训练。LaMDA可以在各种话题上进行自由流畅的对话。与传统的聊天机器人不同,它不受预定义路径的限制,可以根据对话的方向进行自适应调整。

PaLM是一个具有5400亿个参数的语言模型,能够处理各种任务,包括复杂的学习和推理。它在语言和推理测试中可以胜过最先进的语言模型和人类。PaLM系统采用了少样本学习的方法,可以从少量的数据中泛化,近似模拟人类学习和应用知识来解决新问题的方式。

4.

MT-DNN是由开发的多任务深度神经网络模型。它可以将多个自然语言处理任务集成到一个模型中,并利用共享参数和任务之间的相关性实现更好的性能。MT-DNN在文本分类、命名实体识别、情感分析等任务中都取得了显著成果,并且具有更高的计算效率和更强的泛化能力。

5.

-自然语言生成(MT-NLG)模型是一个基于的语言模型,拥有5300亿个参数,使其成为同类模型中最大且最强大的模型。它在零、一和少样本设置中超越了之前的最先进模型,并在完成预测、常识推理、阅读理解、自然语言推理和词义消歧等自然语言任务中展现了无与伦比的准确性。

国内大语言模型汇总

在国内,截至2023年11月30日,多家大模型企业和机构正式宣布其服务已经上线,并向全社会开放。目前,百度、金山、智谱、百川、字节、商汤、中科院(紫东太初)等8个企业和机构的大模型名列第一批备案名单,它们可以正式上线并向公众提供服务。

1.百度

文心一言是由百度研发的知识增强大语言模型,它能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。文心一言拥有广泛的知识储备和语言理解能力,能够轻松应对各种自然语言任务。

由百度和鹏程实验室联合发布,它有 260B 个参数,擅长自然语言理解和生成。它在海量非结构化数据上进行了训练,并在机器阅读理解、文本分类和语义相似性等 60 多项 NLP 任务中取得了一流的成绩。此外,泰坦还在 30 项少拍和零拍基准测试中表现出色,这表明它有能力利用少量标记数据在各种下游任务中进行泛化。

ERNIE Bot是百度研发的知识增强大语言模型,它能够与人进行对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。ERNIE Bot拥有强大的语言理解能力,能够处理复杂的语义关系,并具备跨模态的知识推理能力。于 3 月份完成 “Ernie Bot “项目的内部测试。Ernie Bot 是一种人工智能语言模型,类似于 的 ,能够进行语言理解、语言生成和文本到图像的生成。这项技术是全球开发生成式人工智能竞赛的一部分。

2.WPS AI

大语言模型‌ 盘点2023的大语言模型

WPS AI是金山办公与合作伙伴共同开发的AI工作助理,它能够理解自然语言并生成对应的回复,回复思路清晰,逻辑严密,推理精确。WPS AI在处理文档、数据分析和智能回复等方面表现出色,为人们提供了更加高效便捷的办公体验。

3.智谱AI

-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。-6B 使用了和 相同的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的-6B 虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。

GLM-130B 是一个开源开放的双语(中文和英文)双向稠密模型,拥有 1300 亿参数,模型架构采用通用语言模型(GLM)。它旨在支持在一台 A100(40G * 8)或 V100(32G * 8)服务器上对千亿规模参数的模型进行推理。在 INT4 量化方案下,GLM-130B 可以几乎不损失模型性能的情况下在 RTX 3090(24G * 4)或 GTX 1080 Ti(11G * 8)服务器上进行高效推理。

4.阿里

2023年4月,阿里发布了「通义千问」,一个超大规模的语言模型,具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。而就在前几天,阿里再次推出以通义千问70亿参数模型Qwen-7B为基座语言模型:Qwen-VL,支持图文输入,具备多模态信息理解能力。除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。

此外,国内模型还有百川智能模型、抖音的云雀大模型、中科院 “紫东太初”模型、上海人工智能实验室的书生大模型、 的 ABAB 大模型等。

以上是2023年叱咤风云的九大语言模型,它们在各个领域都展现出了卓越的性能,目睹了大模型的爆炸式增长。随着技术的不断进步,期待它们在自然语言处理、图像识别、语音识别等领域的性能不断提升,甚至超越人类的水平。

租!GPU云资源

新上线一批A100/A800

运营商机房,服务有保障

323AI导航网发布

© 版权声明

相关文章

星河超算AI数字人

暂无评论

暂无评论...