1.On the Connection between Pre-training Data Diversity and Fine-tuning Robustness
标题:论预训练数据多样性与微调鲁棒性的联系
作者:Vivek Ramanujan, Thao Nguyen, Sewoong Oh, Ludwig Schmidt, Ali Farhadi
文章链接:https://arxiv.org/abs/2307.12532
摘要:
预训练在深度学习中被广泛采用,以提高模型性能,特别是当目标任务的训练数据有限时。在我们的工作中,我们试图了解这种训练策略对下游模型的泛化特性的影响。更具体地说,我们提出以下问题:预训练分布的属性如何影响微调模型的鲁棒性?我们探索的属性包括标签空间、标签语义、图像多样性、数据域和预训练分布的数据量。我们发现影响下游有效鲁棒性的主要因素(Taori et al., 2020)是数据量,而其他因素的重要性有限。例如,将 ImageNet 预训练类的数量减少 4 倍,同时将每个类的图像数量增加 4 倍(即保持总数据量固定)不会影响微调模型的鲁棒性。我们展示了我们对从各种自然和合成数据源中提取的预训练分布的发现,主要使用 iWildCam-WILDS 分布转变作为下游稳健性的测试。
2.Interpolating between Images with Diffusion Models(ICML 2023)
标题:使用扩散模型在图像之间进行插值
作者:Clinton J. Wang, Polina Golland
文章链接:https://arxiv.org/abs/2304.06018
项目代码:https://clintonjwang.github.io/interpolation
摘要:
图像生成和编辑的一个鲜为人知的前沿领域是在两个输入图像之间进行插值的任务,这是当前部署的所有图像生成管道中都缺少的功能。我们认为这样的特征可以扩展此类模型的创造性应用,并提出了一种使用潜在扩散模型进行零样本插值的方法。我们以一系列降低噪声水平的序列在潜在空间中应用插值,然后根据从文本反转和(可选)主体姿势导出的插值文本嵌入来执行去噪。为了获得更大的一致性,或者指定其他标准,我们可以生成多个候选图像并使用 CLIP 来选择最高质量的图像。我们在不同的主体姿势、图像风格和图像内容中获得了令人信服的插值,并表明 FID 等标准定量指标不足以衡量插值的质量。代码和数据可从此 https URL 获取。
3.MC-JEPA: A Joint-Embedding Predictive Architecture for Self-Supervised Learning of Motion and Content Features
标题:MC-JEPA:用于运动和内容特征自监督学习的联合嵌入预测架构
作者:Adrien Bardes, Jean Ponce, Yann LeCun
文章链接:https://arxiv.org/abs/2307.12698
摘要:
视觉表示的自监督学习一直专注于学习内容特征,不捕捉物体运动或位置,而是专注于识别和区分图像和视频中的物体。另一方面,光流估计是一项不涉及理解估计图像内容的任务。我们统一这两种方法并引入 MC-JEPA,这是一种联合嵌入预测架构和自监督学习方法,可在共享编码器中共同学习光流和内容特征,证明这两个相关目标;光流估计目标和自监督学习目标;相互受益,从而学习包含运动信息的内容特征。该方法的性能与现有的无监督光流基准以及图像和视频语义分割等下游任务的常见自监督学习方法相当。
树莓派上运行 Stable Diffusion,260MB 的 RAM「hold」住 10 亿参数大模型
ImageNet-1K压缩20倍,Top-1精度首超60%:大规模数据集蒸馏转折点