更高清写实的人体天生模子HyperHuman来了，基于隐式妄想散漫，刷新多项SOTA-岳家迎海网

机械之心专栏

作者：Snap钻研院，更高香港中文大学，清写香港大学，实的式妄南洋理工大学

论文地址: https://arxiv.org/pdf/2310.08579.pdf
Github 地址: https://github.com/snap-research/HyperHuman

1. 钻研布景与念头

随着散漫模子的人体崛起，一些典型的天生模子好比 Stable Diffusion, DALL-E 2 等在文本天生图像使命上揭示了使人震撼的能耐。但一个清晰的模H漫刷缺少是，这些模子在文本天生人体图片的于隐使命上展现患上不精美绝伦，致使很难天生具备公平妄想或者做作姿态的想散新多项人体（好比精确的四肢数目以及适宜人体物理妄想的多少多拓扑）。眼前的更高主要原因在于：做作情景下的人体是铰接的，且搜罗刚性以及非刚性的清写形变；天生高品质的人体图片需要文本难以形貌的妄想信息。

为了在文生图中引入妄想操作信息，实的式妄近期的人体代表使命如 ControlNet[1]，T2I-Adapter [2] 削减了颇为轻量的天生、即插即用的模H漫刷可学习分支，用以调节预磨炼的于隐文生图散漫模子。可是，原本散漫模子分支以及新退出的可学习分支之间的特色差距，每一每一会导致生乐成果与操作信号的不不同。

为了处置这个下场， HumanSD [3] 运用了一种原生的操作向导方式，即直接将人体骨架图与散漫模子输入在特色维度妨碍拼接。尽管确定水平上处置了天生 - 条件不同过错齐的下场，但规模于天生艺术画风的图片，在天生品质、多样性以及写实性上仍有美满。此外，以前的大部份使命仅仅把操作信号作为一种输入或者向导条件，却漠视了人体概况与差距妄想信息之间多层级的分割关连。若何天生一个传神的、妄想公平的人体图片依然是一个未处置的下场。

在本文中，Snap 钻研院、香港中文大学、香港大学、南洋理工大学团队推出了最新的高写实人体天生模子 HyperHuman ，经由对于显式的人体概况与隐式的多层级人体妄想妨碍散漫学习，在 zero-shot 的 MS-COCO 数据集上取患了最佳的图片品质（FID, FID_CLIP, KID）与天生 - 人体姿态不同性（AP, AR）目的服从，且取患了优异的文本 - 图像对于齐目的（CLIP score）服从，并在普遍的用户主不雅评测中取患了最优的服从。

2. 中间措施

为了引入人体骨架图以妨碍姿态操作，最重大的措施是经由特色残差或者输入串联。可是，这种做法依然存在多少个下场：（1）浓密关键点仅形貌了简陋的人体妄想，而漠视了细粒度的人体多少多妄想以及远景 - 布景关连。此外，原始的散漫模子磨炼仅由 RGB 信号妨碍把守，无奈取患上数据集图片中搜罗的妄想信息。（2）图像 RGB 以及妄想表当初空间上对于齐，但在特色空间扩散上有很大的差距。若何对于它们妨碍散漫建模依然具备挑战性。

（1）Unified Model for Simultaneous Denoising.

咱们对于第一个下场的处置妄想是同时对于深度图、概况法向图以及分解的 RGB 图像妨碍去噪。抉择它们作为格外的学习目的有两个原因：1）深度以及概况法向可能很简略地对于大规模数据集妨碍自动标注取患上，这也被普遍用于最近的可控文生图模子中 [1，2] 。2) 作为两种罕用的妄想教育，它们填补了空间关连以及多少多信息，其中深度图以及概况法向图在最近的三维视觉钻研中被证实是大有辅助的[4] 。为此，一种重大的措施是磨炼三个自力的收集来分说对于 RGB、深度图以及概况法向妨碍去噪。但它们之间的空间对于齐性很难坚持。因此，咱们提出在不同的模子框架中经由同时去噪来学习三者的散漫扩散，可能用如下损失函数妨碍磨炼:

（2）Structural Expert Branches with Shared Backbone.

为了能让一个散漫模子的 UNet 同时处置来自三个差距扩散的 RGB、深度图、概况法向图，而且为三种模态分说输入去噪信号，咱们提出对于 UNet 主干收集的最前多少层降采样模块以及最后多少层上采样模块妨碍复制，用以作为三种差距窗习目的的妄想专家去噪分支。试验发现，模块复制的层数会掂量三种输入之间的空间对于齐性以及各自的扩散学习精准度：（1）一方面，更少的自力分支参数 + 更多的同享主干收集参数能带来更强的输入相似性，从而让散漫模子输入的 RGB 、深度图、概况法向图在空间上愈加对于齐。（2）另一方面，一组对于应的 RGB、深度图、概况法向图可能看做是统一张图片的差距形态。在经由同享主干收集后，咱们可能患上到相同的中间层收集特色。凭证相同的特色患上到统一张图的差距形态 / 表征 / 气焰，在本性上以及图片 - 图片变更下场 (Image-to-Image Translation) 颇为相似。以是，咱们有需要有饶富多的自力收集参数来实现这个使命。可能思考一个极真个例子：假如差距去噪分支的参数只搜罗一层 conv 层，那末咱们就需要仅用一层卷积收集把同样的特色映射到 RGB、深度图以及概况法向图输入，这显明是无奈做到的。经由短缺的试验后，咱们抉择拷贝原始散漫模子 UNet 的输入卷积层（conv_in）、第一层降采样模块 (DownBlock)、最后一层上采样模块（UpBlock），以及输入卷积层（conv_out）。这样既保障了输入的 RGB、深度图以及概况法向图之间的空间对于齐，又能对于三种差距模态的表征扩散妨碍精确的学习，详细的收集妄想展现图如下：

除了以上两个主要贡献，文中尚有对于散漫学习中的噪声层级采样策略以及若何运用一阶段估量的妄想信息患上到更高分说率、更细节、更传神的生乐成果妨碍了精心妄想，详细内容请参考论文。

3. 试验服从

HyperHuman 在 zero-shot 的 MS-COCO 数据集上取患了最佳的图片品质（FID, FID_CLIP, KID）与天生 - 人体姿态不同性（AP, AR）目的服从，且取患了优异的文本 - 图像对于齐目的（CLIP score）服从。其中，SDXL [5] 运用了两个文本编码器，而且运用了 3 倍巨细的散漫模子 UNet 主干收集，因此具备更多的文本 - 图像 cross-attention 层，在 CLIP score 上展现最佳。尽管如斯，HyperHuman 在 CLIP score 上依然取患了相似的服从，而且以及其余具备相同文本编码器参数的文生图模子比照，具备更优的文本 - 图像不同性展现:

此外，咱们还格外揭示了 FID-CLIP 以及 FID_CLIP-CLIP 曲线，用以揭示差距模子在差距 Classifier-free Guidance （CFG）下的展现。咱们可能看到，HyperHuman 可能很好地对于图片天生品质以及图文不同性妨碍掂量，特意是在巨匠实际场景下会运用的 CFG 数值取患了清晰的提升（即图片右下角的地域）：

下面是一些 HyperHuman 天生的样本。其中在左侧的 2x2 网格中，左上角是输入的人体骨架图，其余三个分说是同时去噪天生的概况法向图、深度图以及一阶段 512x512 分说率的 RGB 图片服从；右侧是 1024x1024 分说率下的高清图片生乐成果：

如下是更多高清的生乐成果：

如下是与以往使命生乐成果的比力：

更多样本请参考文章附录。

3. 总结与未来使命

本文提出 HyperHuman，一种高写实的人体天生模子。HyperHuman 提出两点中间贡献：（1）妄想了隐式妄想去噪模子，经由同时去噪取患上图像 RGB、深度图以及概况法向图，用不同的框架形貌了图片的概况纹理、空间关连以及多少多妄想信息；（2）妄想了却构向导的详尽化模块，可能鲁棒地凭证一阶段天生的妄想表征取患上高清、高品质的人体生乐成果。总体来说，HyperHuman 可能天生做作场景下多种概况、多种姿态的高清写实人，在图片品质、写实性、多样性、可控性等方面均逾越了以往的使命。

未来使命：

1. 由于现有的人体姿态、深度图以及概况法向图估量收集在下场上有规模性，一些颇为细节的纹理特色诸如眼镜、手指依然存在天生倾向。若何实用地处置这些下场，天生超详尽粒度的高清人体依然是值患上探究的下场；

2. 当初的框架要求用户输入一张骨架图作为向导，尽管这是一种颇为易取患上的操作信号，用户可能经由拖拽骨骼关键点取患上，也增强了用户的主不雅操作性，但依然使大规模快捷运用此模子需要格外的输入。一种潜在的方式是运用 LLM 由文本天生人体骨架，再运用 HyperHuman 天生高清的人体图。

更多钻研质料见：

Webpage: https://snap-research.github.io/HyperHuman/
Short Demo (3min): https://www.youtube.com/watch?v=eRPZW1pwxog
Long Demo (10min): https://www.youtube.com/watch?v=CxGfbwZOcyU

参考文献

[1] Adding conditional control to text-to-image diffusion models, ICCV’23

[2] T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models, arXiv preprint arXiv:2302.08453

[3] Humansd: A native skeleton-guided diffusion model for human image generation, ICCV’23

[4] Monosdf: Exploring monocular geometric cues for neural implicit surface reconstruction, NeurIPS’22

[5] Sdxl: Improving latent diffusion models for high-resolution image synthesis, arXiv preprint arXiv:2307.01952