科研助理工作¶

前言：

为了防止聊天记录丢失，且逻辑化老师的聊天记录，故把任务书以文档形式列出：

工作日志：2025/04/02

我想让你开始试试声音编辑的工作，你先看看这篇论文

Audit.pdf

然后你要开始去了解什么是扩散模型

https://www.bilibili.com/video/BV14c411J7f2/?spm_id_from=333.337.search-card.all.click&vd_source=2e7a28848e74a5263086ab2562619823

扩散模型的理论你有空就可以去看看B站童发发博主的视频，讲得挺全面了。目前暂时不需要了解数学上的细节，但是你要知道这个方法是在干什么

不用复现哈，会有开源的

这是我跟另一个学生的对话，本来想让他做这个，但是他现在手上有另一个工作，所以我就想招一个科研助理参与进来这个

子儒，我跟你讲一下，接下来的计划哈，因为你现在做的只是一个插件嘛，后面我想做一个完整的工作。今天我专门研究了一下，我觉得做这个有戏。我在这里记录下我看到的，应该是可实现的。我们做一个声音编辑，我们一起好好研究下。

https://hilamanor.github.io/AudioEditing/

就是这个，但是呢，我们可以基于flow matching去做

https://github.com/LituRout/RF-Inversionhttps://github.com/LituRout/RF-Inversion

这个是在图像编辑里面很受认可的一个工作

我们把这个用于声音编辑里

就是跟这个工作一样，这个是声音编辑，用的ddpm inversion，其实我们换成rectified flow inversion。大致逻辑是这样

https://github.com/gwh22/LAFMA/tree/main?tab=readme-ov-file

基于flow matching的声音生成的基座模型也有

2024年4月week1完成情况：

日期	任务	学习记录（日志）
4/2	收到任务
4/3
4/4	扩散模型深入（概念讲解+原理）（大约2h）	b站视频1；b站视频2；学习日志
4/7	继续了解扩散模型
4/9	继续推进以b站视频为主

todo：

深度学习基础
神经网络基础（概念运行理论）