合成图像为人工智能训练效率树立了新标杆
麻省理工学院 CSAIL 研究人员利用合成图像进行创新来训练人工智能,为更高效、减少偏差的机器学习铺平了道路。
雷切尔·戈登 | 麻省理工学院 CSAIL
2023 年 11 月 20 日
麻省理工学院的一个团队研究了使用文本到图像模型生成的合成图像来学习视觉表示的潜力。他们首次证明,在大规模环境中,仅使用合成图像训练的模型优于使用真实图像训练的模型。
制作人员:图片:Alex Shipps/MIT CSAIL 通过 Midjourney AI 图像生成器
数据是新的土壤,在这片肥沃的新土地上,麻省理工学院的研究人员种植的不仅仅是像素。通过使用合成图像来训练机器学习模型,一组科学家最近超越了传统“真实图像”训练方法所获得的结果。
该方法的核心是一个名为 StableRep 的系统,它不仅使用任何合成图像,而且还使用任何合成图像。它通过超流行的文本到图像模型(例如稳定扩散)生成它们。这就像用文字创造世界一样。
那么 StableRep 的秘诀是什么?一种称为“多元积极对比学习”的策略。
麻省理工学院计算机科学与人工智能实验室附属机构、麻省理工学院电气工程博士生 Lijie Fan 表示:“我们正在教导模型通过上下文和方差来更多地了解高级概念,而不仅仅是向其提供数据。” (CSAIL),这项工作的首席研究员。 “当多个图像全部由相同的文本生成,并且全部被视为同一底层事物的描述时,模型会更深入地研究图像背后的概念,比如对象,而不仅仅是它们的像素。”
这种方法将相同文本提示生成的多个图像视为正对,在训练期间提供附加信息,不仅增加更多多样性,而且向视觉系统指定哪些图像相似、哪些图像不同。值得注意的是,StableRep 在广泛的数据集中超越了在真实图像上训练的顶级模型(例如 SimCLR 和 CLIP)。
“虽然 StableRep 有助于缓解机器学习中数据采集的挑战,但它也引领了人工智能训练技术新时代的进步。根据指令生成高质量、多样化的合成图像的能力可以帮助减少繁琐的开支和资源,”范说。
数据收集的过程从来都不是一帆风顺的。早在 20 世纪 90 年代,研究人员就必须手动拍摄照片来收集物体和面部的数据集。 2000 年代,人们在互联网上搜索数据。然而,这些原始的、未经整理的数据与现实世界的情况相比往往存在差异,并反映了社会偏见,呈现出一种扭曲的现实观点。通过人为干预清理数据集的任务不仅成本高昂,而且极具挑战性。不过,想象一下,如果这种艰巨的数据收集可以简化为像用自然语言发出命令一样简单的东西。
StableRep 获胜的一个关键方面是对生成模型中“指导尺度”的调整,这确保了合成图像的多样性和保真度之间的微妙平衡。经过微调后,用于训练这些自监督模型的合成图像被发现与真实图像一样有效,甚至更有效。
向前迈进了一步,添加了语言监督,创建了一个增强的变体:StableRep+。当使用 2000 万张合成图像进行训练时,与使用 5000 万张真实图像进行训练的 CLIP 模型相比,StableRep+ 不仅实现了卓越的准确性,而且还显示出显着的效率。
然而,前方的道路并非一帆风顺。研究人员坦诚地解决了一些限制,包括当前图像生成速度缓慢、文本提示和生成图像之间的语义不匹配、偏见的潜在放大以及图像归因的复杂性,所有这些都是未来进步必须解决的问题。另一个问题是,StableRep 需要首先在大规模真实数据上训练生成模型。该团队承认,从真实数据开始仍然是必要的;但是,当您拥有良好的生成模型时,您可以将其重新用于新任务,例如训练识别模型和视觉表示。
该团队指出,他们还没有摆脱从真实数据开始的需要;只是一旦你有了一个好的生成模型,你就可以将其重新用于新任务,例如训练识别模型和视觉表示。
虽然 StableRep 通过减少对大量真实图像集合的依赖提供了一个很好的解决方案,但它也引起了人们对用于这些文本到图像模型的未经整理的数据中隐藏偏差的担忧。文本提示的选择是图像合成过程中不可或缺的一部分,但它并不完全没有偏见,“这表明了细致的文本选择或可能的人工管理的重要作用,”范说。
“使用最新的文本到图像模型,我们对图像生成获得了前所未有的控制,允许从单个文本输入中获得多种视觉效果。这在效率和多功能性方面超越了现实世界的图像收集。事实证明,它在专门任务中特别有用,例如平衡长尾识别中的图像多样性,为使用真实图像进行训练提供了实用的补充,”范说。 “我们的工作标志着视觉学习向前迈出了一步,朝着提供具有成本效益的培训替代方案的目标迈进,同时强调了持续改进数据质量和合成的必要性。”
“长期以来,生成模型学习的一个梦想是能够生成对判别模型训练有用的数据,”谷歌 DeepMind 研究员、多伦多大学计算机科学教授 David Fleet 说道,他没有参与该论文。 “虽然我们已经看到了一些生命的迹象,但梦想仍然难以实现,尤其是在高分辨率图像等大规模复杂领域。据我所知,这篇论文首次提供了令人信服的证据,证明梦想正在成为现实。他们表明,从大量合成图像数据中进行对比学习可以产生优于从大规模真实数据中学习到的表示,并有可能改善无数下游视觉任务。”
Fan 与 22 届田永龙博士一起作为该论文的主要作者,以及麻省理工学院电气工程和计算机科学副教授以及 CSAIL 首席研究员 Phillip Isola; Google研究员、OpenAI技术人员Huiwen Chang;和谷歌研究科学家迪利普·克里希南 (Dilip Krishnan)。该团队将在 2023 年新奥尔良神经信息处理系统 (NeurIPS) 会议上展示 StableRep。
(Reprinted with permission of MIT News http://news.mit.edu/)
我的其它作品
防止人工智能模型对错误答案过度自信的方法
随着语言能力的提高,LLM对现实的理解也逐渐加深
如何在网上证明人类身份
大型语言模型的推理能力经常被高估
大型语言模型的行为并不像人类
提高大型语言模型的推理能力的技术
麻省理工学院校长 Sally Kornbluth 和 OpenAI 首席执行官 Sam Altman 讨论人工智能的未来
绘制视觉记忆的大脑通路
构建更好地理解人类目标的机器
打造更好的人工智能助手
生成式人工智能的创意未来
生成式人工智能的创意未来
麻省理工学院人工智能治理白皮书(5)
麻省理工学院人工智能治理白皮书(4)
麻省理工学院人工智能治理白皮书(3)
麻省理工学院人工智能治理白皮书(2)
- 防止人工智能模型对错误答案过度自信的方法 - 08/27/24
- 随着语言能力的提高,LLM对现实的理解也逐渐加深 - 08/26/24
- 如何在网上证明人类身份 - 08/24/24