AI开源项目‌ 每周AI开源项目汇总第四期-4.01（文生视频/AI助手/视频处理） – 哔哩哔哩

默认分类5个月前发布 admin

5,048 0 0

AI-，分享上有趣、实用的AI开源项目。

小编为大家梳理了本期最受大家欢迎的项目。

【本周20个新增开源项目如下】

1. 13k星！-模糊图片变高清！开源可部署的AI放大工具！

是一款由南洋理工大学S-Lab开发的强大AI工具,主要用于视频去码、图片修复和人脸修复等应用场景。该工具具有人脸清晰化修复、人脸色彩化和人脸去马赛克等功能。

项目地址：

2. Cog–Image:将将任意人物图像转换成指定的另一种图像

-image 能够将一张人脸图片转换成另一张完全不同风格的图片，实现了独特的图像转换功能。在使用上，用户可以通过上传两张图片，另一幅是要将人脸转换成目标风格的图片。

用户可以根据需求调节各种参数，如保留原始人脸图像的程度、强度控制以及样式应用等，从而定制出符合个人需求的图片。

项目地址：

3. 13.7星！一个可以同时跟多个AI大模型聊天的开源项目！

基于大型语言模型（LLM）的人工智能机器人令人惊叹。然而，它们的行为可能是随机的，不同的机器人擅长不同的任务。如果你想要最好的体验，不要一个接一个地尝试。项目可以同时向多个人工智能机器人发送提示，帮助您发现最佳结果。你所需要做的就是下载、安装并询问。

项目地址：

4. 一款免费开源的项目即可搞定：、、、、等主流AI大模型的无缝切换使用！

是开源的高性能聊天机器人框架，支持语音合成、多模态、可扩展的（ Call）插件系统。

支持一键免费部署私人 /LLM 网页应用程序。作者比较敬业，小版本更新迭代频率非常高，程序体验一流，项目已收获12w Star，认为对自己有帮助的同学也可以前往为作者加加star，让更多人能够使用提升效率，用在工作和学习的方方面面。

截止到目前，一众开源GPT程序中，以作者层面开放插件生态系统的GPT应用程序仅此一家！尽管项目启动晚，但着实把开发进度赶在了前面，相较于注重稳定性和用户交互体验的老牌GPT程序-Next-Web 和桌面程序，更加拥抱变化，绿色环保无广告，积极对齐官方GPT-4 Plus并开拓全新功能，为国内用户带来了极大的AI使用便利。

项目地址：

5. 让照片开口唱歌说话！腾讯比阿里EMO先开源！

之前阿里展示EMO项目让照片唱歌说话时，惊艳了所有人，然而到现在为止一直还没开源被饱受诟病，今天腾讯的来啦！也是一个让照片开口项目说话的项目！

根据音频和图像输入生成会说话、唱歌的动态视频它可以根据音频（比如说话声）和一张静态的人脸图片，自动生成逼真的人脸动画，并保持口型一致。支持多种语言，同时支持进行面部重绘和头部姿势控制。

地址：

6. ：支持克隆语音及修改音频文本的语音模型

是一款新型语音模型，支持克隆语音和修改音频文本。据称其性能超越了XTTS，引起了业界关注。模型具有强大的音频克隆能力和编辑功能，虽未有详细试用报告，但已公开的演示效果显示出了潜力。

体验地址：

地址：

AI开源项目‌ 每周AI开源项目汇总第四期-4.01（文生视频/AI助手/视频处理） - 哔哩哔哩

7. 国外开源的让照片跳舞的AI项目！跳个科目三不在话下！

Champ 利用潜在扩散框架内的 3D 人体参数模型，实现了无与伦比的形状对齐和运动引导。

捕捉复杂的人体几何形状和运动从未如此简单！

地址：

8. ：1.2星！这个AI工具可以一键生成短视频和文案语音！

这个开源AI项目已经1.2k的star量了！只需提供一个视频主题或关键词，就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐，然后合成一个高清的短视频。

地址：

9. ：根据文字提示生成2分钟的视频

采用自回归方法来逐帧生成视频内容，也就是会根据前一段视频的内容来生成下一段内容，就像连环画中，每一幅画都是基于前一幅来绘制的。它能够生成长达1200帧（约2分钟）的视频，同时保证整个视频与文本描述紧密相关且动态连续。

项目及演示：

论文：

：

10. 一键生成说话视频！

是一个基于扩散的音频驱动表达性头部生成框架,能够生成具有多种说话风格的高质量头部视频。在各种输入中表现出强大的性能,包括歌曲、多种语言的语音、含噪声音频和领域外的肖像画。

项目地址：

11. APISR:专注于动漫图像、视频的超分辨率模型！

又一个一个专注于专注于动漫图像、视频的超分辨率模型！一键提升画质分辨率！

：

12. :一个可以在笔记本电脑上运行推理的生物医学语言模型！

是一个由斯坦福大学和团队合作开发发的基于GPT风格的自回归语言模型,具有2.7亿参数,专门在摘要和全文上训练。这个模型展现了在生物医学多项选择问答任务上与更大模型竞争的强大能力,例如在(dev)上达到57.3%的得分,在MMLU医学遗传学考试上达到69.0%的得分。也可以被微调以产生关于医学主题的患者问题的有用回答。

地址：

13. :根据你的独特面部特征生成极为逼真且多样化的人脸图像！

是一个先进的人工智能项目,能够根据一个人的独特面部特征(通过所谓的嵌入表示)生成极为逼真且多样化的人脸图像。这项技术依靠一个庞大大的人脸图像数据库和一种特殊的算法( 模型),能够精确地捕捉并再现个人的面部特征。与传统方法不同,专注于使用人脸识别技术的核心特征来引导图像的生成,从而实现在各各种任务中保持人脸身份的一致性。这意味着可以用于创建非常符合特定人物身份特征的,人脸图像,为人脸识别、数字娱乐以及安全领域等提供了新的可能性。

地址：

14. 一键生成简历！开源的AI简历生成神器太牛逼了！

是一个免费的开源简历生成器，它简化了创建、更新和共享简历的过程。在零用户跟踪或广告的情况下，您的隐私是首要任务。该平台非常用户友好，如果您希望完全拥有自己的数据，可以在不到30秒内自行托管。

AI开源项目‌ 每周AI开源项目汇总第四期-4.01（文生视频/AI助手/视频处理） - 哔哩哔哩

它有多种语言可供选择，并具有实时编辑、数十个模板、拖放自定义以及与集成等功能，以增强您的写作能力。

你可以将简历的个性化链接分享给潜在雇主，跟踪其浏览量或下载量，并通过拖放部分来定制页面布局。该平台还支持各种字体选项，并提供数十个模板可供选择。是的，甚至还有一个黑暗模式，以获得更舒适的观看体验。

：

15. API for Open LLMs-开源大模型的统一后端接口，与的响应保持一致！

此项目为开源大模型的推理实现统一的后端接口，与的响应保持一致，具有以下特性：

支持多种开源大模型：LLaMA, LLaMA-2, BLOOM, , , Qwen, , , , , ,

地址：

16. 马斯克开源的Grok推出1.5版本了！能够在高达128K标记长度的文本中实现完美检索！

Grok-1.5在MATH基准测试中取得了50.6%的成绩，比上一代提高一倍，逼近GPT 4等模型。基准测试：得分74.1%，优于除 3 Opus的所有模型。在GSM8K基准测试中取得了90%的成绩，优于 Large、 2。MMLU测试中：取得了81.3%的成绩，这表明模型在理解广泛的语言任务方面能力增强。Grok-1.5展现了强大的文本内嵌检索能力，能够在高达128K标记长度的文本中实现完美检索。

详情：

17. ：替换视频中的人物、物体同时保持视频背景不变！

允许你在视频中将一个主体（如视频中的一个动物、人物或任何物体）更换为另一个不同的主体，同时视频的背景环境保持不变。你还可以通过交互式操作（如添加、删除等）进一步细化交换结果，实现更加个性化和精确的视频内容编辑。

项目及演示：

论文：

：

18. 移除对象图像中的任何物体：-

可以修复图像、视频和3D 场景中的任何内容，移除后可以通过文本提升再填充新的内容，背后用的是分割模型（）、修复模型（LaMa）和生成模型（）。效果在有些自然场景下移除物体还不错。

使用方法：

体验地址：

开源地址：

19. –AI-Guide – 生成式AI一站式资源库！