水晶球APP 高手云集的股票社区
下载、打开
X

推荐关注更多

柴孝伟

买进就值,越来越值,时享价...


邢星

邢 星 党员,国...


石建军

笔名:石天方。中国第一代投...


揭幕者

名博


洪榕

原上海大智慧执行总裁


小黎飞刀

黎仕禹,名博


启明

私募基金经理,职业投资人


李大霄

前券商首席经济学家


桂浩明

申万证券研究所首席分析师


宋清辉

著名经济学家宋清辉官方账号...


banner

banner

英伟达CEO、OpenAI首席科学家访谈纪要:AI的今天与未来

价值投机小学生   / 2023-03-26 18:37 发布

中文字幕视频黄仁勋对话OpenAI首席科学家谈GPT-4及未来大模型

背景本次谈话发生在GPT-4推出的第二天过去一段时间内OpenAI推出的ChatGPT以及其他的GPT产品在全世界范围内造成了非常深远的影响也将AI 这个已经是热点的话题再次推向了风口浪尖在此背景下本次交流聚焦在AI在今天的应用以及未来的发展

Q&A

Q我想我想回到最开始问你深度学习的问题你对深度学习的直觉是什么?为什么你知道它会起作用?你心中就一定认为深度学习会取得如此成就吗?

A深度学习的惊人力量改变了世界我觉得我个人的出发点在于对AI巨大影响力的直觉我也很好奇什么是意识什么是人类经验我觉得AI的进步会帮助我理解这些

从2000年到2003年时候学习似乎只是人类能做的事情而计算机根本做不到在2003年和2002年计算机什么也学不到甚至不清楚这在理论上是否可行所以我在想如果能在智能学习或者机器学习方面作出一些成果将很有可能成为AI领域最大的进步然后我开始四处寻找一开始不够乐观

幸运的是Jeff Hinton是当时所在大学的教授我找到了他他研究的是神经网络正好是我认为有意义的因为神经网络特性就在于能够学习可以自动编程的并行计算机那时候并行计算机规模还很小但当人们弄清楚学习神经网络是如何工作的你可以为小型并行计算机编程它和大脑也很相似所以就有了理由继续走下去但还不清楚如何让它起作用不过根据现有的事情可以知道他前景是光明的

Q当你第一次开始在你第一次开始研究深度学习神经网络的时候这个网络的规模有多大?当时的计算规模是多少?

A当时没有人认识到规模的重要性所以人们训练的神经网络只有50个或者100个几百个神经元一百万个参数被认为是非常大的我们会在没有优化的CPU代码上运行我们的模型我们研究人员不知道BLAS我们使用MatlabJeff Hinton对训练神经网络在小数字上很感兴趣一方面是分类任务另一方面是如何生成那些数字所以生成模型的源头从那里开始但问题是那些东西还很零散什么才能真正推动技术进步当时看起来并不是正确的问题但现在被认为是正确的

QAlexNet是在2012年创立当时你和亚历克斯在AlexNet工作过一段时间你什么时候确定想要建立一个面向计算机视觉的神经网络Imagenet才是那个合适的数据集应该做些事儿来参加计算机视觉的竞赛?

A我可以谈谈这里的背景大概在那之前两年我就清楚地意识到监督式学习才是我们前进的方向我可以准确地解释为什么这不仅仅是直觉也是无可辩驳的如果你的神经网络又深又大那么它就可以被配置来解决这个困难的任务这就是关键词深而大

那时候人们关注的不是大型神经网络而是神经网络的一些深度但大多数机器学习领域根本没有研究神经网络他们研究各种贝叶斯模型和内核方法这些理论上都是很好的方法但并不表示是一个好的解决方案而大型的神经网络在面对问题求解时能给出一个好的答案这需要大的数据集以及大量的计算

我们也在优化方面做了一些工作优化是一个瓶颈研究生James Martens取得了突破他提出了一种优化方法用二阶函数来实现但重点是它证明了我们可以训练这些神经元如果你能训练神经网络你就把他变大一些然后去找一些数据你就会成功那么接下来的问题是找什么样的数据答案是ImageNet当时ImageNet是一个难度很高的数据集但若想训练一个大型卷积神经网络在数据集上它必须成功

Q你怎么能发现GPU在解决这方面的问题上是可用的是从哪天开始的

A一开始Jeff将GPU带到了实验室里但我们不清楚到底要用它们来做什么但接下来发现随着ImageNet数据集的出现卷积神经网络是非常适合GPU 的模型可以把它变得非常快因此就能做规模远超以前的训练Alex Krizhevsky喜欢使用GPU进行编程Alex他开发了非常快的卷积核函数然后去训练神经网络最终取得了结果这是非常显著的突破打破了当时许多记录这并不是之前方法的延续而是一种全新思路

Q快进到你来了硅谷和朋友创办了OpenAI关于OpenAI工作的最初想法是什么最早的源动力是什么怎样达到了现在的成就

A是的所以很明显当我们开始的时候并不是100%清楚该如何继续这个领域和现在的情况也有很大不同在2015年-2016年早在2016年初我们开始的时候整件事看起来很疯狂当时的研究人员少得多可能比现在人数少了100到1000倍当时我们有大约100个人他们中的大多数为谷歌/DeepMind工作人员非常稀缺

我们有两个大的最初想法第一个是通过压缩进行无监督学习今天我们理所当然地认为监督学习是一件简单的事情在2016年无监督学习在机器学习领域是一个未解决的问题我一直认为好的数据压缩将产生无监督学习虽然压缩并不是人们常常提起的一个词但是人们最近突然理解了这些GPT实际上压缩了训练数据从数学意义上讲训练这些自回归模型可以压缩数据的如果压缩的好你就必须能够提取其中存在的所有隐藏信息这是关键

我们真正感兴趣的第一件事是OpenAI中对情绪神经元的一些工作在机器学习领域可能没有很多人关注但实际上它影响很大这项工作的结果是神经网络但它并不是Transformer而是Transformer之前的模型那就是小型循环神经网络LSTM我们使用LSTM预测Amazon评论的下一个字符我们发现如果预测下一个字符足够好就会有一个神经元在LSTM内对应它的情绪这展现了无监督学习的一些效果并验证了良好的下一个字符预测的这种想法压缩具有发现数据中的秘密的特性这就是我们现在在GPT模型中看到的

Q那我们从哪里可以获得无监督学习的数据

A我想说在无监督学习中困难的部分不在于你从哪里得到数据虽然现在这仍然是个问题但更多的是关于为什么要这么做?困难的是要意识到训练这些神经网络来预测下一个token是一个有价值的目标在GPT-1之前有关情绪神经元的工作对我们有很大的影响然后Transformer出来了我们立即想到就是它了并在此基础上训练了GPT-1

Q你对于模型和数据大小的扩展规律的直觉相对于GPT-123哪个先出现你有看到GPT的发展路径吗还是现有扩展规律的直觉

A直觉我有一个非常强烈的信念更大是更好在OpenAI我们的目标之一就是弄清楚规模扩展的正确途径问题是如何准确使用它还有一点很重要那就是强化学习在OpenAI中完成的第一个真正的大项目是我们努力解决一个实时策略游戏--Dota 2所以我们训练一个强化学习agent来对抗自己目标是达到一定水平这样它就可以和世界上最好的玩家竞争这也是一项重大任务是一种非常不同的工作方向现在有一种趋同的趋势GPT产出了技术基座从Dota的强化学习转变为人类反馈的强化学习这种组合给了我们ChatGPT

Q现在有一种误解认为ChaGPT本身只是一个巨大的大型语言模型但事实上围绕它有一个相当复杂的系统你能为观众简单解释一下吗

A我们可以这样想当我们训练一个大的神经系统来准确地预测下一个单词时我们所做的是在学习一个世界模型表面上看我们只是在学习统计相关性但事实证明只要学习统计相关性就可以很好地压缩这些知识

神经网络所学习的是产生文本的过程的一些表述这些文本实际上是这个世界的一个映射所以神经网络正在学习从世界越来越多的方面看待这个世界看待人类和社会神经网络学习一个压缩的抽象的可用的表述这就是从准确预测下一个词的任务中学到的东西此外你对下一个词的预测越准确还原度越高在这个过程中你得到世界的分辨率就越高这就是预训练阶段的作用但这并不能让神经网络表现出我们希望它能够表现出的行为

一个语言模型它真正要做的是回答以下问题如网上有一些随机的文本以一些前缀开始一些提示它将如何完成?如果只是随机寻找一些片段填充这和我想拥有一个助手是不同的我想要的助手要诚实要有帮助要遵守一定的指导规则这就是微调这就是对来自于人类教师强化学习和其他形式的人工智能协助可以发挥作用的对方不仅仅是向人类学习也是人类和AI合作的强化学习在这里我们不是在教授它我们是在与它交流希望它成为什么样而这个过程也就是第二阶段也是非常重要的第二阶段做得越好这个神经网络就越有用越可靠所以第二阶段是非常重要的第一阶段尽可能多地从世界的映射中学习也就是文字

Q你可以对它进行微调你可以指示它执行一些特定任务能不能指示它不做一些事情这样会给它设置一些安全护栏去避免某一类型的行为

A是的所以训练的第二阶段是我们向神经网络传达我们想要的任何东西我们训练得越好我们传达的边界的保真度就越高所以通过不断的研究和创新来提高保真度从而使它在遵循预期指令的方式上变得越来越可靠和精确

QChatGPT在几个月前就出来了是历史上增长最快的应用程序现在是GPT-4发布的第一天它在许多领域的表现令人震惊包括SATGRE等都能获得很高的分数什么是ChatGPT和GPT-4之间的主要区别以及GPT-4在这项领域中的改进有哪些

AGPT-4相比ChatGPT的基础上在很多方面都有了实质性的改进GPT是第一个主要的区别这也许是最重要的区别在GPT-4的基础上构建预测下一个单词具有更高的准确度这很重要因为它预测的越好那么它理解得越多随着对课文的理解不断加深GPT-4预测下一个单词的能力也变得更好

Q人们说深度学习不会逻辑推理那么GPT-4是如何能够学会推理的如果它学会了推理我将要问的就是做了哪些测试它在预测下一个单词的时候是否在学习推理局限性是什么?

A推理并不是一个很好定义的概念但我们可以试着定义它也就是说当你走得更远的时候你如果能以某种方式稍微思考一下并且因为你的推理得到一个更好的答案我们的神经网络也许有某种限制基本的神经网络能走多远也许还有待观察我认为我们还没有充分挖掘它的潜力在某种程度上推理还没有达到那个水平

Q在我看来当我们使用ChatGPT的时候它展现了某种程度上的推理水平所以我认为ChatGPT天然具备这种内在能力

A某种程度上用一种方式去理解现状这些神经网络有很多这样的能力他们只是不太可靠

可靠性是让这些模型有用目前最大的障碍有时候这些神经网络还会产生幻想或者可能会犯意想不到的错误而人类不会犯这些错误正是这种不可靠性让它们用处大大降低但我认为通过更多的研究或者一些远大的研究计划我们一定能实现更高的可靠性这样模型才会真的有用并且能让我们设定精确的护栏也就是模型学会问清楚它不确定的地方或者压根不知道的知识

当模型学会后它不知道的问题不会回答回答的答案也会非常可信这是当前模型的一种瓶颈这不仅仅是模型是否具备特定的能力

Q我之前看过一个视频展现了GPT-4利用维基百科做检索的能力那么GPT-4是否真的包含检索能力它是否能够从事实中检索信息以加强对你的响应

A当前GPT-4发布时并没有内置的检索功能它真的只是一个很好的预测下一个词的工具另外它也可以处理图像但是它完全具备这个能力它也将通过检索变得更好

Q多模态GPT-4能够从图像和文本中学习并对文本和图像作为输入的请求做出响应的能力从基础来看多模态为什么如此重要重大突破是什么以及由此产生的特征差异是什么

A有两个原因让它如此有趣

第一个原因是多模态对神经网络而言是有用的尤其是视觉因为世界是非常视觉化的我认为如果没有视觉神经网络的用处虽然相当大但它并没有达到应有的规模所以GPT-4可以得更好

第二个原因那就是我们除了可以通过文字学习世界也可以通过从图像中学习来更多地了解世界人类可以从视觉中学到很多东西对神经网络而言同样如此除了神经网络可以从相当多的词中学习因此如果有视觉功能从文本中的几十亿文字认识世界或许会变得更容易甚至可以从数万亿的词语中学习当我们加入视觉信息的时候并从视觉中学习知识你就会学到额外的知识我不想说这是二进制文件我认为更多的是交换频率问题如果有更多的信息输入比如图像学习的过程将会快许多

Q你说到从图像中学习是否有一种感觉表明利用音频对于模型学习也会有帮助吗我们会好好利用它吗

A我认为这是肯定的音频是一个额外的信息来源可能没有图片或视频多但是音频仍然是有必要的无论是在识别方面还是生产方面

Q在你们公布的测试结果数据中哪个测试在GPT-3中表现更好那个测试在GPT-4中表现更好你认为多模态在这些测试中起了多少作用

A在一个有很多图表的问题中比如美国的AMC12数学竞赛GPT-3.5在测试中表现的相当差只有文字模态的GPT-4有大概2%到20%的准确率当你添加视觉模态时它会提升至40%的成功率所以这个版本真的做了很多工作我认为能够在视觉层面进行推理和在视觉上进行沟通是非常棒的情况从我们对世界中仅仅几个事物的了解发展到你可以了解整个世界然后你可以把这个世界视觉化做到视觉化沟通以后或许当你询问问题的时候神经网络可以给你提供图表进行回答

Q之前你提到过关于AI生成另外一个AI的事情有研究指出世界上可以被用来进行模型训练的数据是有限的你是否认为这些可以进行训练的素材会慢慢耗尽另外AI 是否会用自己生成的数据来训练自己您如何看待数据生成领域

A我认为我不会低估现有的数据我认为可能有比人们意识到的更多的数据对于第二个问题这种可能性还有待观察

Q你认为语言模型领域会去向何处哪个领域是最能使你兴奋的

A预测是很难的尤其对于太具体的事情

我认为可以肯定的是进步将继续我们将继续看到AI系统在它的能力边界继续震惊人类

AI的可靠性是由是否可以被信任决定的未来肯定可以达到完全信赖的地步如果它不明白也会通过提问来问清楚它会告诉你它不知道但同时会向你询问更多的知识我认为这是AI可用性影响最大的领域未来会有最大的进步

我们现在就面临一个挑战比如让神经网络总结长的文档获取摘要挑战就是能确定重要的细节没被忽略吗当他的总结可以达到所有人都认同的时候我们就可以说它的内容是可靠的对于内容护栏也一样它是否清楚的遵循用户的意图也会成为衡量的标准

Q最后一个问题所以从ChatGPT到GPT-4你是什么时候第一次开始使用它的它表现出来什么样的技能连你都为之惊讶

A简而言之就是它的可靠性令人惊讶之前的神经网络如果你问他们一个问题有时他们可能会用一种愚蠢的方式误解而GPT-4不会让这种事情发生

它解决数学问题的能力变得很棒你可以认为它真的进行了推导一些长篇且复杂的推导还转换单位等这真的很酷

另一个例子是很多人注意到它有能力用同一个字母开头的单词写诗每个单词都能清晰遵循指令这并不完美但已经很好了

在视觉方面我真的很喜欢它解释笑话的方式它可以解释网络梗你可以用一些复杂的图像或图表来追问问题

退一步说我从事这项工作差不多20年了最让我感到惊讶的是它确实有效对人们的生活而言它现在变得更重要更强烈它还是那个神经网络只是变得更大在更大的数据集上训练训练的基础算法都是一样的我们只是常识让这些神经元更加准确我会说这是我发现最令人惊讶的事情

___________________________________

在今年的 GTC 上NVIDIA 创始人兼首席执行官黄仁勋与 OpenAI 联合创始人首席科学家 Ilya Sutskever 进行了一场深度对话讨论了 GPT-4ChatGPT 背后的故事也聊了下深度学习的未来

如今OpenAI 可以说是整个 AI 领域最火的研究机构凭借强大的 GPT-4 以及与微软必应Office 等产品的融合这家公司似乎要掀起一场生产力革命

这一成就是由多方面的力量来驱动的包括聪明的头脑和强大的基础设施

聪明的头脑Ilya Sutskever 颇具代表性2012 年他和他的导师 Geoffrey Hinton 以及同学 Alex Krizhevsky 一起用深度神经网络刷新了 ImageNet 的历史记录拉开了卷积神经网络统治计算机视觉的序幕标志着新一波人工智能浪潮的开始2021 年这个名为 AlexNet 的论文被引量突破 10 万

为了加速训练我们用到了非饱和神经元和一个非常高效的 GPU 卷积操作实现Ilya Sutskever 等人在 AlexNet 的相关介绍中提到了这样一条关键信息他们还详细说明了如何将他们的网络映射到多个 GPU 上从这时起GPU 和神经网络紧紧地绑定在一起黄仁勋的英伟达自然也成了这波 AI 浪潮中不可或缺的一环

2015 年Ilya Sutskever 参与创办了 OpenAI并带领这家公司一路向着 AI 大模型的方向前进但随着模型变得越来越大训练它们所需的算力也急剧增长

加速计算并非易事2012 年计算机视觉模型 AlexNet 动用了 GeForce GTX 580每秒可处理 262 PetaFLOPS该模型引发了 AI 技术的爆炸十年之后Transformer 出现了GPT-3 动用了 323 ZettaFLOPS 的算力是 AlexNet 的 100 万倍创造了 ChatGPT 这个震惊全世界的 AI崭新的计算平台出现了AI 的 iPhone 时代已经来临黄仁勋在 GPT 大会的 Keynote 中说道在这次大会上英伟达发布了 ChatGPT 专用的 GPU推理速度提升了 10 倍

一路走来Ilya Sutskever 和黄仁勋都是这波 AI 浪潮的见证者和重要推动者在即将到来的AI iPhone 时代两人也必将扮演重要的者角色

在这场对话中两人谈到了深度神经网络的能力限制和内部工作方式并勾勒了一些未来的图景

在打造 GPT-4 的过程中Ilya Sutskever 坚信模型越大越好扩大规模是 OpenAI 的目标之一这自然是黄仁勋喜闻乐见的

I had a very strong belief that bigger is better, and a goal at OpenAI was to scale.       ——Ilya Sutskever

两人的谈话进行了大约 1 个小时就像老朋友边喝咖啡边聊天一样以下是这次谈话的完整视频带中文字幕大家可以在其中感受时代的脉搏

英伟达博客网页链接      视频链接网页链接