清华大学交叉信息研究院

交叉信息院“深度学习”海报展圆满结束

浏览量：2272

2023年06月09日

2023年6月7日，清华茶园“深度学习”课程结课海报展在FIT楼2层举办。课程授课教师吴翼助理教授带领姚班同学实践课堂所学，探索深度学习的广泛运用。

姚班同学基于GAN、Stable Diffusion、ControlNet等模型，在风格迁移、图像合成、文生图、静态图转动态图等方向上进行尝试和开拓。实现了图像“漂浮”、客制化语音生成等特效。

第一组同学结合Segment Anything Model, Large Mask Inpainting model, Dense Prediction Transformer以及计算机视觉中的方法，实现了在极短的时间内能令任何静态图片中的物品悬浮起来。

第二组同学结合图片语义比对与Stable Diffusion模型，实现了比传统方法更好的p图手段：令生成图片中的元素更和谐，比如自动补全图片中的光影关系等。

第三组同学基于文生图模型Stable Diffusion，采用ControlNet模型、Latex代码、源代码以及参考图片，实现了将数学公式从“印刷体”转化为“手写体”的效果。

第四组同学基于LoRA和ControlNet对Stable Diffusion模型进行微调，进行了系列实验，探究了LoRA正则化以及LoRA与ControlNet混合使用的情况。

第五组同学则成功结合CycleGAN和Rectified Flow Network将“黑白漫画图”生成为对应的、高质量的“彩色动画图”。他们选用CycleGAN进行初步风格转化，再运用Diffusion Model思想，运用加噪去噪处理方法对图像细节进行修复，实现了高质量的图片风格变换。

第六组同学运用生成对抗网络（GAN）实现了软件图标的神经风格迁移（Neural Style Transfer），基于参考图像，自动生成风格迥异的图标。

第七组同学探索的是合照眼姿修复，以解决合照中总有人闭眼的问题。他们的模型架构主要分为两方面：第一方面主要检测合照中的人脸与眼睛的位置关系，第二方面则着重修复存在异常的部分。

第八组同学受广告业启发，尝试实现无痕嵌入广告的效果。他们的方案基于商标数据集以及Stable Diffusion模型，实现了“文字-商标”的生成，并通过指定掩码实现无痕嵌入效果。

第九组同学曾接触过语音合成算法Tacotron，因此选择对此进行深入探索。他们采用自动语音识别（ASR）和文本转语音（TTS）等模型，通过Vocoder-Inverted Autoregressive Flow采集声音样本，组成了一个基于吴翼老师音频数据训练的客制化语音助手。

第十组同学的选题是“海马体”风格证件照生成。他们通过迁移妆容、亮度、服装和背景实现了人像美化效果，并处理了一系列细节问题。两位同学计划未来进一步提升清晰度，改善边缘粗糙等问题。

同学们感到，虽然调试、训练、适配等过程很繁琐，但尝试开发一款自己的软件令人收获颇丰。从构思模型到落地，运用课堂所学解决实际问题，是一件很有成就感的事情。

文字、摄影 | 姜月亮