交叉信息院“深度学习”海报展圆满结束

浏览量:
2023年06月09日

 

202367日,清华茶园“深度学习”课程结课海报展在FIT2层举办。课程授课教师吴翼助理教授带领姚班同学实践课堂所学,探索深度学习的广泛运用。

 

 

姚班同学基于GANStable DiffusionControlNet等模型,在风格迁移、图像合成、文生图、静态图转动态图等方向上进行尝试和开拓。实现了图像“漂浮”、客制化语音生成等特效。

 

 

 

 

第一组同学结合Segment Anything Model, Large Mask Inpainting model, Dense Prediction Transformer以及计算机视觉中的方法,实现了在极短的时间内能令任何静态图片中的物品悬浮起来。

 

 

第二组同学结合图片语义比对与Stable Diffusion模型,实现了比传统方法更好的p图手段:令生成图片中的元素更和谐,比如自动补全图片中的光影关系等。

 

 

第三组同学基于文生图模型Stable Diffusion,采用ControlNet模型、Latex代码、源代码以及参考图片,实现了将数学公式从印刷体转化为手写体的效果。

 

 

第四组同学基于LoRAControlNetStable Diffusion模型进行微调,进行了系列实验,探究了LoRA正则化以及LoRAControlNet混合使用的情况。

 

 

第五组同学则成功结合CycleGANRectified Flow Network黑白漫画图生成为对应的、高质量的彩色动画图。 他们选用CycleGAN进行初步风格转化,再运用Diffusion Model思想,运用加噪去噪处理方法对图像细节进行修复,实现了高质量的图片风格变换。

 

 

第六组同学运用生成对抗网络(GAN)实现了软件图标的神经风格迁移(Neural Style Transfer),基于参考图像,自动生成风格迥异的图标。

 

 

第七组同学探索的是合照眼姿修复,以解决合照中总有人闭眼的问题。他们的模型架构主要分为两方面:第一方面主要检测合照中的人脸与眼睛的位置关系,第二方面则着重修复存在异常的部分。

 

 

第八组同学受广告业启发,尝试实现无痕嵌入广告的效果。他们的方案基于商标数据集以及Stable Diffusion模型,实现了文字-商标的生成,并通过指定掩码实现无痕嵌入效果。

 

 

第九组同学曾接触过语音合成算法Tacotron,因此选择对此进行深入探索。他们采用自动语音识别(ASR)和文本转语音(TTS)等模型,通过Vocoder-Inverted Autoregressive Flow采集声音样本,组成了一个基于吴翼老师音频数据训练的客制化语音助手。

 

 

第十组同学的选题是“海马体”风格证件照生成。他们通过迁移妆容、亮度、服装和背景实现了人像美化效果,并处理了一系列细节问题。两位同学计划未来进一步提升清晰度,改善边缘粗糙等问题。

 

 

同学们感到,虽然调试、训练、适配等过程很繁琐,但尝试开发一款自己的软件令人收获颇丰。从构思模型到落地,运用课堂所学解决实际问题,是一件很有成就感的事情。

 

 

文字、摄影 | 姜月亮