专家们齐聚一堂,深入了解人工智能生成的代码、语言和图像及其功能、局限性和未来影响。
Rachel Gordon | MIT CSAIL
从左到右:麻省理工学院教授 Phillip Isola、Daniela Rus、Armando Solar-Lezama 和 Jacob Andreas
生成人工智能的出现引发了对意识、创造力和作者身份本质的深入哲学探索。当我们见证该领域的新进展时,越来越明显的是,这些合成代理拥有创造、迭代和挑战我们传统智能概念的非凡能力。但是,对于人工智能系统来说,“生成”到底意味着什么,人类和机器之间的创造性表达的界限变得越来越模糊?
对于那些感觉“生成人工智能”——一种可以炮制出新的、原始的数据或类似于它所训练的内容的人工智能——的人来说,就像一夜之间的轰动一样,而事实上,新的能力让很多人感到惊讶。 ,底层技术已经酝酿了一段时间。
但理解真正的能力可能就像这些模型产生的一些生成内容一样模糊。为此,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究人员聚集在一起,围绕生成式人工智能的能力和局限性,以及它在语言、图像和代码方面对社会和行业的潜在影响进行了讨论。
生成人工智能有多种模型,每种模型都有自己独特的方法和技术。其中包括生成对抗网络(GAN)、变分自动编码器(VAE)和扩散模型,这些模型都在从艺术到音乐和医学的各个行业和领域中展现了非凡的力量。随之而来的是一系列道德和社会难题,例如产生假新闻、深度造假和错误信息的可能性。研究人员表示,考虑这些因素对于继续研究生成人工智能的能力和局限性并确保合乎道德的使用和责任至关重要。
在开场白中,为了展示这些模型的视觉能力,麻省理工学院电气工程和计算机科学 (EECS) 教授兼 CSAIL 主任 Daniela Rus 拿出了她的学生最近送给她的一份特别礼物:一张人工智能肖像拼贴画,上面有微笑的镜头罗斯,运行着一系列像镜子一样的反射。然而,并没有看到任何受委托的艺术家。
这要感谢机器。
生成模型通过从互联网下载许多照片并尝试使输出图像看起来像样本训练数据来学习制作图像。训练神经网络生成器的方法有很多,扩散模型只是一种流行的方法。麻省理工学院 EECS 副教授和 CSAIL 首席研究员 Phillip Isola 解释了这些模型,将随机噪声映射到图像。该模型使用一种称为扩散的过程,将图像等结构化对象转换为随机噪声,然后通过训练神经网络来反转该过程,逐步消除噪声,直到获得无噪声图像。如果您曾经尝试过使用 DALL-E 2(输入句子和随机噪声,然后噪声凝结成图像),那么您就已经使用了扩散模型。
“对我来说,生成数据最令人兴奋的方面不是它创建逼真图像的能力,而是它为我们提供的前所未有的控制水平。它为我们提供了新的旋钮和调节旋钮,带来了令人兴奋的可能性。语言已经成为图像生成的一个特别强大的界面,它允许我们输入诸如“梵高风格”之类的描述,并让模型生成与该描述相匹配的图像,”伊索拉说。“然而,语言并不能包罗万象;有些事情很难仅通过言语来表达。例如,在肖像背景中传达山的精确位置可能具有挑战性。在这种情况下,可以使用草图等替代技术为模型提供更具体的输入并实现所需的输出。”
然后,伊索拉用鸟的图像来展示控制计算机创建的图像的各个方面的不同因素如何像“掷骰子”一样。通过改变这些因素,例如鸟的颜色或形状,计算机可以生成图像的许多不同变化。
如果您没有使用过图像生成器,那么您可能会使用类似的文本模型。麻省理工学院 EECS 助理教授兼 CSAIL 首席研究员 Jacob Andreas 将观众从图像带入生成单词的世界,承认模型的令人印象深刻的性质,可以写诗、进行对话,并在同一时间有针对性地生成特定文档小时。
这些模型如何表达看似欲望和信仰的事物?安德烈亚斯解释说,他们利用了词嵌入的力量,其中具有相似含义的词被分配了数值(向量),并被放置在具有许多不同维度的空间中。当绘制这些值时,具有相似含义的单词最终会在此空间中彼此靠近。这些值的接近程度表明这些词在含义上的相关程度。(例如,也许“Romeo”通常接近“Juliet”,等等)。Transformer 模型尤其使用一种称为“注意力机制”的东西,该机制有选择地关注输入序列的特定部分,从而允许不同元素之间进行多轮动态交互。这个迭代过程可以比作不同点之间的一系列“摆动”或波动,从而产生序列中预测的下一个单词。
“想象一下,在你的文本编辑器中,右上角有一个神奇的按钮,你可以按下它来将你的句子转换成漂亮而准确的英语。当然,我们已经进行语法和拼写检查一段时间了,但我们现在可以探索许多其他方法将这些神奇的功能合并到我们的应用程序中,”Andreas 说。“例如,我们可以缩短一段冗长的段落,就像我们在图像编辑器中缩小图像一样,然后让文字按照我们的意愿出现。我们甚至可以通过帮助用户在形成论点时找到来源和引文来进一步突破界限。然而,我们必须记住,即使是当今最好的模型也远远无法以可靠或值得信赖的方式做到这一点,而且要使这些来源可靠且公正,还有大量工作要做。尽管如此,我们可以利用这项技术探索和创造巨大的可能性。”
人们还探索了大型语言模型的另一项壮举,有时感觉相当“元”:编写代码的模型——有点像小魔杖,只不过它们不是咒语,而是召唤出代码行,带来(一些)软件开发商梦想成真。麻省理工学院 EECS 教授和 CSAIL 首席研究员 Armando Solar-Lezama 回顾了 2014 年的一些历史,解释了当时如何在使用“长短期记忆 (LSTM)”方面取得了重大进步,这是一种语言翻译技术,可以用于通过明确定义的任务来纠正可预测文本的编程作业。两年后,每个人最喜欢的人类基本需求出现了:注意力,这是由 2017 年谷歌介绍该机制的论文“注意力就是你所需要的”所带来的。此后不久,前 CSAILer Rishabh Singh 加入了一个团队,该团队利用注意力以自动化方式为相对简单的任务构建整个程序。不久之后,变压器出现,导致使用文本到文本映射生成代码的研究激增。
“代码可以运行、测试和分析漏洞,这使得它非常强大。然而,代码也非常脆弱,小错误可能对其功能或安全性产生重大影响。”Solar-Lezema 说道。“另一个挑战是商业软件的庞大规模和复杂性,即使是最大的模型也很难处理。此外,不同公司使用的编码风格和库的多样性意味着使用代码时的准确性门槛可能非常高。”
在随后的问答讨论中,Rus 以一个内容作为开场白:我们如何通过将特定领域的知识和约束融入到模型中,使生成式人工智能的输出更加强大?“用于处理复杂视觉数据(例如 3D 模型、视频和光场)的模型(类似于《星际迷航》中的全息甲板)仍然严重依赖领域知识才能有效运行,”Isola 说。“这些模型将投影和光学方程纳入其目标函数和优化例程中。然而,随着数据的可用性不断增加,一些领域知识可能会被数据本身所取代,这将为学习提供足够的约束。虽然我们无法预测未来,但随着我们的前进,我们可能需要更少的结构化数据。即便如此,目前领域知识仍然是处理结构化数据的一个重要方面。”
小组还讨论了评估生成内容有效性的关键性质。已经构建了许多基准来表明模型能够在某些需要高级语言能力的测试或任务中达到人类水平的准确性。然而,经过仔细检查,简单地解释示例可能会导致模型完全失败。识别故障模式已经变得与训练模型本身同样重要,甚至更重要。
Solar-Lezama 承认对话的舞台是学术界,并谈到了针对深厚而强大的工业界开发大型语言模型的进展。他说,学术界的模型“需要真正的大型计算机”来创建不太依赖行业支持的所需技术。
除了技术能力、局限性及其发展方式之外,Rus 还提出了生活在人工智能生成的世界中与深度造假、错误信息和偏见相关的道德风险。伊索拉提到了专注于水印的新技术解决方案,它可以帮助用户巧妙地辨别图像或一段文本是由机器生成的。“这里需要注意的一件事是,这个问题无法纯粹通过技术解决方案来解决。我们可以提供解决方案的空间,并提高人们对这些模型功能的认识,但让更广泛的公众了解这些模型的实际功能非常重要,”Solar-Lezama 说道。“归根结底,这必须是一次更广泛的对话。这不应该仅限于技术专家,因为这是一个超出技术本身的相当大的社会问题。”
讨论了围绕聊天机器人、机器人和许多反乌托邦流行文化环境中受欢迎的比喻的另一种倾向:拟人化的诱惑。为什么对许多人来说,存在一种将类人品质投射到非人类实体上的自然倾向?安德烈亚斯解释了围绕这些大型语言模型及其看似超人的能力的对立思想流派。
安德烈亚斯说:“有些人认为,像 ChatGPT 这样的模型已经达到了人类水平的智能,甚至可能具有意识。但实际上,这些模型仍然缺乏真正的类人能力,不仅无法理解细微差别,而且有时它们的行为极其极端。”引人注目的、怪异的、非人类的方式。另一方面,有些人认为这些模型只是浅层模式识别工具,无法学习语言的真正含义。但这种观点也低估了它们从文本中获得的理解水平。虽然我们应该谨慎地夸大它们的能力,但我们也不应该忽视低估它们的影响的潜在危害。最后,我们应该谦虚地对待这些模型,并认识到它们的能力和能力还有很多东西需要了解。不做。”
(Reprinted with permission of MIT News http://news.mit.edu/)
我的其它作品
防止人工智能模型对错误答案过度自信的方法
随着语言能力的提高,LLM对现实的理解也逐渐加深
如何在网上证明人类身份
大型语言模型的推理能力经常被高估
大型语言模型的行为并不像人类
提高大型语言模型的推理能力的技术
麻省理工学院校长 Sally Kornbluth 和 OpenAI 首席执行官 Sam Altman 讨论人工智能的未来
绘制视觉记忆的大脑通路
构建更好地理解人类目标的机器
打造更好的人工智能助手
生成式人工智能的创意未来
生成式人工智能的创意未来
麻省理工学院人工智能治理白皮书(5)
麻省理工学院人工智能治理白皮书(4)
麻省理工学院人工智能治理白皮书(3)
麻省理工学院人工智能治理白皮书(2)
- 防止人工智能模型对错误答案过度自信的方法 - 08/27/24
- 随着语言能力的提高,LLM对现实的理解也逐渐加深 - 08/26/24
- 如何在网上证明人类身份 - 08/24/24