NiT 引入了三项关键的架构创新:动态标记化、可变长度序列处理和二维结构先验注入。动态标记化将图像转换为可变长度的标记序列,从而避免了输入填充并降低了计算开销。可变长度序列处理使用 Flash Attention 来处理异构标记序列,而二维结构先验注入则引入轴向二维旋转位置嵌入来分解高度和宽度的影响。这些创新使 NiT 能够高效处理不同分辨率和宽高比的图像。
NiT 在 ImageNet-256x256 和 512x512 基准测试中均展现出最佳性能,FID 得分分别达到 2.03 和 1.45。此外,NiT 还展现出强大的零样本泛化能力,在未见过的 1024x1024 分辨率下,FID 得分高达 4.52。NiT 在分辨率泛化和宽高比泛化方面的表现也超越了基准模型,展现出其能够跨不同分辨率和宽高比生成高质量图像的能力。这些成果使 NiT 成为图像合成、图像编辑和计算机视觉等各种应用领域的宝贵工具。