科研助理工作¶
前言:
为了防止聊天记录丢失,且逻辑化老师的聊天记录,故把任务书以文档形式列出:
工作日志:2025/04/02
- 我想让你开始试试声音编辑的工作,你先看看这篇论文
- Audit.pdf
- 然后你要开始去了解什么是扩散模型
- https://www.bilibili.com/video/BV14c411J7f2/?spm_id_from=333.337.search-card.all.click&vd_source=2e7a28848e74a5263086ab2562619823
- 扩散模型的理论你有空就可以去看看B站童发发博主的视频,讲得挺全面了。目前暂时不需要了解数学上的细节,但是你要知道这个方法是在干什么
- 不用复现哈,会有开源的
- 这是我跟另一个学生的对话,本来想让他做这个,但是他现在手上有另一个工作,所以我就想招一个科研助理参与进来这个
- 子儒,我跟你讲一下,接下来的计划哈,因为你现在做的只是一个插件嘛,后面我想做一个完整的工作。今天我专门研究了一下,我觉得做这个有戏。我在这里记录下我看到的,应该是可实现的。我们做一个声音编辑,我们一起好好研究下。
- https://hilamanor.github.io/AudioEditing/
- 就是这个,但是呢,我们可以基于flow matching去做
- https://github.com/LituRout/RF-Inversionhttps://github.com/LituRout/RF-Inversion
- 这个是在图像编辑里面很受认可的一个工作
- 我们把这个用于声音编辑里
- 就是跟这个工作一样,这个是声音编辑,用的ddpm inversion,其实我们换成rectified flow inversion。大致逻辑是这样
- https://github.com/gwh22/LAFMA/tree/main?tab=readme-ov-file
- 基于flow matching的声音生成的基座模型也有
2024年4月week1完成情况:
| 日期 | 任务 | 学习记录(日志) |
|---|---|---|
| 4/2 | 收到任务 | |
| 4/3 | ||
| 4/4 | 扩散模型深入(概念讲解+原理)(大约2h) | b站视频1;b站视频2;学习日志 |
| 4/7 | 继续了解扩散模型 | |
| 4/9 | 继续推进 以b站视频为主 |
todo:
- 深度学习基础
- 神经网络基础(概念 运行 理论)