2024年AI艺术创作领域发展大事件！@慕课网原创_慕课网

0 前言

第一期 🎉

AI发展之快令人难以置信，毕竟就在一年前，我们还在为生成正确数量的手指而苦恼 😂。

过去几年，开源模型和艺术工具迎来了关键性进展，AI 创意工具的可及性前所未有地提升，而我们可能才刚刚触及冰山一角。一起回顾 2024 年 AI & 艺术领域的重要里程碑、工具和突破，同时展望 2025 年的发展趋势。

1 2024 年重大发布

重点介绍在图像和视频生成等艺术创意领域的重大突破，特别是开源项目的进展。

1.1 图像生成

自从 Stable Diffusion（稳定扩散）最初发布以来，开源图像生成模型在文本生成图像、图像编辑和可控图像生成等方面迅速发展。如今，开源模型在许多任务上的表现已能与闭源模型媲美，甚至超越。

1.2 文本到图像生成

2024 年，我们在扩散模型（Diffusion Models）的范式上迎来了巨大转变——从传统的 U-Net 结构转向 Diffusion Transformer（DiT），并且在目标函数上从扩散过程切换到了流匹配（Flow Matching）。

扩散模型与高斯流匹配在数学上是等价的，而流匹配提供了一种新的网络输出参数化方式，与以往的扩散模型有所不同。

📖 推荐阅读：如果你对流匹配及其与扩散模型的关系感兴趣，可以查看 Google DeepMind 的一篇精彩博客。

实战应用

Stable Diffusion 3：最早宣布采用 DiT 结构的模型
HunyuanDiT：首个真正开源的 DiT 结构模型
后续发布：AuraFlow、Flux.1、Stable Diffusion 3.5

在开源图像生成模型的发展历程中，Flux.1 的发布堪称一个里程碑。该模型在多个基准测试中超越了 Midjourney v6.0 和 DALL·E 3（高清版），成为新的开源标杆。

1.3 个性化与风格化

图像生成模型的进步也带来了个性化和可控生成技术的重大提升。

早在 2022 年 8 月，Textual Inversion（文本嵌入） 和 DreamBooth（梦幻训练） 让我们能够向文本生成图像模型引入新概念，极大拓展了其可能性。这些技术催生了一系列改进，如 LoRA（低秩自适应微调）等。

但微调模型的上限仍受基础模型质量的限制。Stable Diffusion XL（SDXL） 的出现改变了这一现状，使个性化和可控生成迈上新台阶。

2024 年的重大突破

零样本（Zero-shot）技术：仅需一张参考图像，无需训练，即可生成高质量肖像
- IP Adapter FaceID
- InstantID
- Photomaker
可控图像生成：结合边缘检测 / 深度 / 姿态约束的图像生成技术进一步提升，如：
- Instant Style
- B-LoRA

📌 2025 年展望：
尽管 DiT 结构的模型如 Flux 和 SD3.5 表现出色，但尚未完全超越 SDXL。这可能是因为我们对 DiT 结构中不同组件的语义作用仍缺乏深入理解。2025 年或将成为突破这一瓶颈的关键之年，届时我们或许能充分挖掘 DiT 的潜力，开启下一代图像生成模型的新篇章。

1.4 视频生成

相比图像生成，AI 视频生成仍有很长的路要走，但相较一年前，进步已经十分显著。

尽管我们更关注开源项目，但不得不承认，OpenAI 的 Sora 极大地改变了人们对 AI 视频生成能力的期待。正如 fofr 在《AI 视频正在迎来它的 Stable Diffusion 时刻》中提到的那样，Sora 让所有人意识到了 AI 生成视频的真正可能性。

开源视频生成模型的崛起

CogVideoX
Mochi
Allegro
LTX Video
HunyuanVideo

AI 视频生成面临的主要挑战包括：
✅ 运动质量 ✅ 连贯性 ✅ 一致性 ✅ 计算资源需求

尽管目前大多数开源视频模型仍然难以在普通硬件上运行，但 2024 年的进展令人瞩目，预计 2025 年将迎来更大的突破。

1.5 音频生成

过去一年，AI 音频生成从简单音效发展到完整带歌词的歌曲，进步显著。但由于音频信号的复杂性及训练数据的稀缺，挑战依然存在。

2024 年开源音频工具

OuteTTS & IndicParlerTTS：文本转语音（TTS）
Whisper Large v3 Turbo：语音识别（ASR）

2025 年刚开始，音频领域就已迎来多项突破：
🎵 Kokoro、LLasa TTS、OuteTTS 0.3（TTS）
🎶 JASCO、YuE（音乐生成）

2 2024年表现亮眼的创意工具

开源的魅力在于社区的共同探索、改进和创新。2024 年，许多优秀的创意 AI 工具应运而生，其中包括：

Flux 微调工具（由 ostris 开发）
Face to All（结合 InstantID 和 SDXL LoRA）
Flux 风格塑形（光学错觉与风格迁移）
Diffusers Outpainting（无缝扩展图像）
Live Portrait & Face Poke（让静态人像动起来）
TRELLIS（高质量 3D 资产生成模型）
IC-Light（智能光照调整工具）

3 2025 年 AI & 艺术趋势展望

🔮 2025 年，开源将在视频、动态内容和音频模型方面迎头赶上，迎来更多跨模态的可能性。随着计算优化和量化技术的发展，我们可以期待开源视频模型的巨大飞跃。

4 强势开局——2025 年 1 月 25 日的开源发布

YuE（全曲 AI 音乐生成模型，媲美闭源模型）
Hunyuan 3D-2、SPAR3D、DiffSplat（3D 生成新星）
Lumina-Image 2.0（2B 参数图像生成模型，挑战 Flux.1）
ComfyUI-to-Gradio 教程（将 ComfyUI 工作流转换为 Gradio 应用）

📢 全新 AI 创意月刊来了！
我将每月为大家精选 AI 创意领域的最新动态，助你轻松掌握前沿工具与趋势！🚀

本文已收录在Github，关注我，紧跟本系列专栏文章，咱们下篇再续！

🚀 魔都架构师 | 全网30W+技术追随者
🔧 大厂分布式系统/数据中台实战专家
🏆 主导交易系统亿级流量调优 & 车联网平台架构
🧠 AIGC应用开发先行者 | 区块链落地实践者
🌍 以技术驱动创新，我们的征途是改变世界！
👉 实战干货：编程严选网