0 前言
第一期 🎉
AI发展之快令人难以置信,毕竟就在一年前,我们还在为生成正确数量的手指而苦恼 😂。
过去几年,开源模型和艺术工具迎来了关键性进展,AI 创意工具的可及性前所未有地提升,而我们可能才刚刚触及冰山一角。一起回顾 2024 年 AI & 艺术领域的重要里程碑、工具和突破,同时展望 2025 年的发展趋势。
1 2024 年重大发布
重点介绍在图像和视频生成等艺术创意领域的重大突破,特别是开源项目的进展。
1.1 图像生成
自从 Stable Diffusion(稳定扩散)最初发布以来,开源图像生成模型在文本生成图像、图像编辑和可控图像生成等方面迅速发展。如今,开源模型在许多任务上的表现已能与闭源模型媲美,甚至超越。
1.2 文本到图像生成
2024 年,我们在扩散模型(Diffusion Models)的范式上迎来了巨大转变——从传统的 U-Net 结构转向 Diffusion Transformer(DiT),并且在目标函数上从扩散过程切换到了流匹配(Flow Matching)。
扩散模型与高斯流匹配在数学上是等价的,而流匹配提供了一种新的网络输出参数化方式,与以往的扩散模型有所不同。
📖 推荐阅读:如果你对流匹配及其与扩散模型的关系感兴趣,可以查看 Google DeepMind 的一篇精彩博客。
实战应用
- Stable Diffusion 3:最早宣布采用 DiT 结构的模型
- HunyuanDiT:首个真正开源的 DiT 结构模型
- 后续发布:AuraFlow、Flux.1、Stable Diffusion 3.5
在开源图像生成模型的发展历程中,Flux.1 的发布堪称一个里程碑。该模型在多个基准测试中超越了 Midjourney v6.0 和 DALL·E 3(高清版),成为新的开源标杆。
1.3 个性化与风格化
图像生成模型的进步也带来了个性化和可控生成技术的重大提升。
早在 2022 年 8 月,Textual Inversion(文本嵌入) 和 DreamBooth(梦幻训练) 让我们能够向文本生成图像模型引入新概念,极大拓展了其可能性。这些技术催生了一系列改进,如 LoRA(低秩自适应微调)等。
但微调模型的上限仍受基础模型质量的限制。Stable Diffusion XL(SDXL) 的出现改变了这一现状,使个性化和可控生成迈上新台阶。
2024 年的重大突破
- 零样本(Zero-shot)技术:仅需一张参考图像,无需训练,即可生成高质量肖像
- IP Adapter FaceID
- InstantID
- Photomaker
- 可控图像生成:结合边缘检测 / 深度 / 姿态约束的图像生成技术进一步提升,如:
- Instant Style
- B-LoRA
📌 2025 年展望:
尽管 DiT 结构的模型如 Flux 和 SD3.5 表现出色,但尚未完全超越 SDXL。这可能是因为我们对 DiT 结构中不同组件的语义作用仍缺乏深入理解。2025 年或将成为突破这一瓶颈的关键之年,届时我们或许能充分挖掘 DiT 的潜力,开启下一代图像生成模型的新篇章。
1.4 视频生成
相比图像生成,AI 视频生成仍有很长的路要走,但相较一年前,进步已经十分显著。
尽管我们更关注开源项目,但不得不承认,OpenAI 的 Sora 极大地改变了人们对 AI 视频生成能力的期待。正如 fofr 在《AI 视频正在迎来它的 Stable Diffusion 时刻》中提到的那样,Sora 让所有人意识到了 AI 生成视频的真正可能性。
开源视频生成模型的崛起
- CogVideoX
- Mochi
- Allegro
- LTX Video
- HunyuanVideo
AI 视频生成面临的主要挑战包括:
✅ 运动质量 ✅ 连贯性 ✅ 一致性 ✅ 计算资源需求
尽管目前大多数开源视频模型仍然难以在普通硬件上运行,但 2024 年的进展令人瞩目,预计 2025 年将迎来更大的突破。
1.5 音频生成
过去一年,AI 音频生成从简单音效发展到完整带歌词的歌曲,进步显著。但由于音频信号的复杂性及训练数据的稀缺,挑战依然存在。
2024 年开源音频工具
- OuteTTS & IndicParlerTTS:文本转语音(TTS)
- Whisper Large v3 Turbo:语音识别(ASR)
2025 年刚开始,音频领域就已迎来多项突破:
🎵 Kokoro、LLasa TTS、OuteTTS 0.3(TTS)
🎶 JASCO、YuE(音乐生成)
2 2024年表现亮眼的创意工具
开源的魅力在于社区的共同探索、改进和创新。2024 年,许多优秀的创意 AI 工具应运而生,其中包括:
- Flux 微调工具(由 ostris 开发)
- Face to All(结合 InstantID 和 SDXL LoRA)
- Flux 风格塑形(光学错觉与风格迁移)
- Diffusers Outpainting(无缝扩展图像)
- Live Portrait & Face Poke(让静态人像动起来)
- TRELLIS(高质量 3D 资产生成模型)
- IC-Light(智能光照调整工具)
3 2025 年 AI & 艺术趋势展望
🔮 2025 年,开源将在视频、动态内容和音频模型方面迎头赶上,迎来更多跨模态的可能性。随着计算优化和量化技术的发展,我们可以期待开源视频模型的巨大飞跃。
4 强势开局——2025 年 1 月 25 日的开源发布
- YuE(全曲 AI 音乐生成模型,媲美闭源模型)
- Hunyuan 3D-2、SPAR3D、DiffSplat(3D 生成新星)
- Lumina-Image 2.0(2B 参数图像生成模型,挑战 Flux.1)
- ComfyUI-to-Gradio 教程(将 ComfyUI 工作流转换为 Gradio 应用)
📢 全新 AI 创意月刊来了!
我将每月为大家精选 AI 创意领域的最新动态,助你轻松掌握前沿工具与趋势!🚀
本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!
- 🚀 魔都架构师 | 全网30W+技术追随者
- 🔧 大厂分布式系统/数据中台实战专家
- 🏆 主导交易系统亿级流量调优 & 车联网平台架构
- 🧠 AIGC应用开发先行者 | 区块链落地实践者
- 🌍 以技术驱动创新,我们的征途是改变世界!
- 👉 实战干货:编程严选网