Image Generation

2025年11月10日 · 824 字 · 4 分钟

Flow-GRPO, Qwen Image, etc.

MLLM

2025年11月9日 · 455 字 · 3 分钟

这篇博客系统性地介绍 SOTA 的开源 MLLM,包括 Qwen-VL 系列,InternVL, Pixtral 等。

Flow Matching

2025年2月11日 · 660 字 · 4 分钟

生成模型是深度学习中的重要研究方向,其核心目标是学习复杂的数据分布并生成新样本。在过去的几年中,从VAE、GAN 到 Diffusion Model,研究者们提出了多种生成模型范式。本文将介绍一个新兴的生成模型方法:Flow Matching,并从其理论发展脉络出发,展现这一方法的独特优势。

2025年的一些计划(上)

2025年1月2日 · 27 字 · 1 分钟

博客很久没更新了。原计划能周更,没想到自从8月份建站以来,一转眼就是新的一年,也是该写点东西了。

本来想规划2025年的年度计划,盘算了下,一年这个尺度还是太长了,容易没有紧凑感。

所以,在这个相隔许久的博客里,做一下2025的上半年规划吧😊

如何让大语言模型听到声音(一)

2024年8月8日 · 245 字 · 2 分钟

本文介绍了音频数据的基本概念、音频信号的预处理流程、音频相关任务以及在深度学习领域,处理音频信号的两种常见架构。