近期关注的AI相关开源repo

1、Fooocus 是一款图像生成软件，对 Stable Diffusion 和 Midjourney 设计的重新思考：

它是离线、开源、免费的
在按下“下载”和生成一张图像之间，所需的鼠标点击次数严格限制在 3 次以内。最低 GPU 内存要求为 4GB (Nvidia)
跨平台

2、book-by-ai，用AI生成高质量电子书。作者的样书生成费用：

人工输入文字：10个以内
生成时间：累计2小时
花费成本：3元左右（30张图片的生成费用）

3、ShortGPT，使用人工智能自动创建视频和短内容：

自动编辑框架：使用面向 LLM 的视频编辑语言简化视频创建过程
脚本和提示：为各种 LLM 自动编辑过程提供即用型脚本和提示
旁白/内容创作：支持多种语言，包括英语🇺🇸、西班牙语🇪🇸、阿拉伯语🇦🇪、法语🇫🇷、波兰语🇵🇱、德语🇩🇪、意大利语🇮🇹、葡萄牙语🇵🇹、俄语🇷 🇺、普通话🇨🇳、日语🇯🇵、印地语🇮🇳、韩语🇰🇷以及超过 30 种语言（使用 EdgeTTS）
字幕生成：自动生成视频字幕
资源来源：从互联网获取图像和视频片段，根据需要与网络和 Pexels API 连接
内存和持久性：确保使用 TinyDB 自动编辑变量的长期持久性

4、ComfyUI，强大且模块化的Stable Diffusion的 GUI 和后端：

节点/图形/流程图界面用于实验和创建复杂的稳定扩散工作流程，无需编写任何代码
完全支持 SD1.x、SD2.x 和 SDXL
异步队列系统
许多优化：仅重新执行工作流程中在执行之间发生变化的部分
命令行选项： --lowvram 使其在显存小于 3GB 的 GPU 上运行（在显存较低的 GPU 上自动启用）
即使您没有 GPU，也可以工作： --cpu （慢）
可以加载 ckpt、safetensors 和扩散器模型/检查点。独立 VAE 和 CLIP 模型
从生成的 PNG 文件加载完整的工作流程（带有种子）
将工作流程保存/加载为 Json 文件
节点界面可用于创建复杂的工作流程，例如招聘修复或更高级的工作流程
启动速度非常快
完全离线工作：永远不会下载任何东西
用于设置模型搜索路径的配置文件

5、VALL-E-X，多语言文本到语音合成与语音克隆

VALL-E X 是一个强大而创新的多语言文本转语音（TTS）模型，最初由微软发布。虽然微软最初在他们的研究论文中提出了该概念，但并未发布任何代码或预训练模型。该repo复现并训练了一个开源可用的VALL-E X模型

*2023年11月9日备注：该repo质量不如TTS，暂时不需要再考虑

6、Headshot AI，这是 Leap AI 的一个开源项目，可在几分钟内生成专业的 AI 头像。流程完整，可一键部署到Vercel

7、photoshot，开源 AI 头像生成器 Web 应用程序，流程完整，注册、支付都有，可做参考。另外可参考这个 smart-excel-ai ，注册、支付完整流程的项目

8、upscayl，图片超分辨率，是一款以 Linux 优先理念构建的跨平台应用程序

9、BrowserGPT，该项目允许你使用自然语言控制浏览器。它将 OpenAI 的 GPT-4/3.5 与 Playwright 库集成，实现无缝浏览器导航。 GPT-4 生成代码片段，Playwright 执行这些代码片段来执行指定的任务

10、realfill，RealFill 是一种个性化文本到图像修复模型的方法，例如仅给定场景的几张（1~5）图像的稳定扩散修复

11、video-retalking，Wav2Lip的同类产品，成品质量似乎较高，但距HeyGen仍然较远。要在Mac M1上跑需要修改4个文件，几个位置需要加上参数'device='cpu''，models下的__init__中需要加'map_location=torch.device('cpu')'：

models/__init__.py
third_part/face3d/extract_kp_videos.py
utils/alignment_stit.py
utils/inference_utils.py

已提交PR，顺便说一下，cpu模式跑比Wav2Lip慢很多

12、TTS 是一个用于高级文本转语音生成的库，超过 1100 种语言的预训练模型，比 VALL-E X 好用

13、RealtimeTTS，对TTS的一个易用性封装

14、HeyGenClone，一个模仿HeyGen的开源项目，提示了技术栈，可基于此修改自己的HeyGen

15、insanely-fast-whisper，语音转文字，在M1 Pro上速度很不错，成品质量可以，需要修改一个地方解决该错误【TypeError: Cannot convert a MPS Tensor to float64 dtype as the MPS framework doesn't support float64. Please use float32 instead】，参考：

https://discuss.huggingface.co/t/typeerror-cannot-convert-a-mps-tensor-to-float64-dtype-as-the-mps-framework-doesnt-support-float64-please-use-float32-instead/42851/2

16、pyvideocreator，PyVideoCreator 通过用于组装剪辑、添加字幕、集成 AI 生成的图像和创建画外音的工具简化了视频制作。它是一个多功能工具包，用于增强和简化跨平台的视频编辑任务，非常适合内容创建者和开发人员

17、comfyui-portrait，人物肖像提示词生成模块，ComfyUI插件

18、i2vgen-xl，VGen是由阿里巴巴集团统一实验室开发的开源视频合成代码库，具有最先进的视频生成模型。可根据输入的文本、图像、所需的运动、所需的主题，甚至提供的反馈信号生成高质量的视频。它还提供了各种常用的视频生成工具，例如可视化、采样、训练、推理、使用图像和视频的联合训练、加速等

19、StyleTTS 2，通过大型语音语言模型的风格扩散和对抗性训练实现人类水平的文本转语音

20、有人借助开源大语言模型，无需联网在本机实现和游戏 NPC 自由对话，技术栈：
- Mistral7b，开源大语言模型
- StyleTTS2 文字转语音
- llama.cpp 用来运行大语言模型的库

21、bcut-asr，使用必剪 API 进行云端语音字幕识别，支持 CLI 和 module 调用。中文识别率高，暂时没必要使用 Whisper

22、daily-poetry-image，每天一句中国古诗词，生成 AI 图片 Powered by Bing DALL-E-3

23、FlowVid，驯服不完美的光流以实现一致的视频到视频合成。“FlowVid能够确保视频编辑过程中的时间连贯性。这意味着当你对视频的某一帧进行编辑（比如改变颜色、添加对象等）时，这些变化会在整个视频中自然地延续，避免了帧与帧之间的不协调”

24、GPT-SoVITS，看视频效果应该是目前最好的声音克隆库，可以弃用微软的TTS（免费部分）

25、ComfyUI-InstantID，来自对InstantID的非官方实现，仅需一张图就可实现高质量的角色保持，多种风格随心变

26、MoneyPrinterV2，工程化批量制作、上传视频的库

27、EMO，超越HeyGen 的头像视频合成，阿里巴巴出品，2月28日时间点模型还未开源

动态更新

动态更新

近期关注的AI相关开源repo

相关文章

VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

HeyGen, Video Translator的开源工具链

全链开源的数字人工具链