UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识
现在是GPT-4,时间是2023年。
7年之后,2030年,那时的GPT会是什么样子?
UC伯克利的一位机器学习教授Jacob Steinhard发表长文,对2030年的GPT(以下简称为GPT 2030)作了预测。
(资料图片)
为了更好地进行预测,Jacob查询了各种来源的信息,包括经验缩放定律、对未来计算和数据可用性的预测、特定基准的改进速度、当前系统的经验推理速度,以及未来可能的并行性改进。
概括来看,Jacob认为,GPT 2030会在以下几个方面超过人类工作者。
1. 编程、黑客任务、数学、蛋白质设计。
2. 工作和思考的速度:预计GPT 2030每分钟处理的单词是人类的5倍,而每FLOP都多5倍的话,总共就是125倍。
3. GPT 2030可以进行任意复制,并进行并行运算。算力足够的话,它足以完成人类需要执行180万年的工作,结合2中的结论,这些工作只需2.4个月,就能完成。
4. 由于具有相同的模型权重,GPT的副本之间可以共享知识,实现快速的并行学习。因此,GPT可以在1天内学完人类需要学2500年的知识。
5. 除了文本和图像,GPT还能接受其它模态的训练,甚至包括各种违反直觉的方式,比如分子结构、网络流量、低级机器码、天文图像和脑部扫描。因此,它可能会对我们经验有限的领域具有很强的直觉把握,甚至会形成我们没有的概念。
当然,除了飞跃的性能,Jacob表示,GPT的滥用问题也会更加严重,并行化和高速将使模型严重威胁网络安全。
它的快速并行学习还会转向人类行为,而因为自己已经掌握了「千年」的经验,它想要操控和误导人类也会很轻易。
在加速方面,最大的瓶颈是GPT的自主性。
在数学研究这种可以自动检查工作的领域,Jacob预测,GPT 2030将超过大多数专业数学家。
在机器学习领域,他预测GPT将能独立完成实验并生成图表和论文,但还是需要人类科研者给出具体指导、评估结果。
在这两种情况下,GPT 2030都将是科研过程中不可或缺的一部分。
Jacob表示,他对GPT 2030特性的预测并不是从今天的系统中直观得出的,它们可能是错误的,因为ML在2030年会是什么样子,还存在很大的不确定性。
然而,无论GPT 2030会是什么样子,Jacob都相信,它至少是一个更好版本的GPT-4。
所以,我们现在就该为AI可能造成的影响(比如影响1万亿美元、1000万人的生命,或者对人类社会进程造成重大破坏)做好准备,而不是在7年以后。
特定能力
GPT 2030应该会具有超人的编码、黑客和数学能力。
在阅读和处理大型语料库,以获取模式和见解以及回忆事实的能力方面,它都会能力惊人。
因为AlphaFold和AlphaZero在蛋白质结构预测和游戏方面都具有超人的能力,GPT 2030显然也可以,比如让它在与AlphaFold/AlphaZero模型相似的数据上进行多模态训练。
编程能力
GPT-4在LeetCode问题上的表现优于训练截止后的人类基线,并通过了几家大型科技公司的模拟面试。
他们的进步速度也很快,从GPT-3到GPT-4,直接跃升了19%。
在更具挑战性的CodeForces竞赛中,GPT-4的表现较差,但AlphaCode与CodeForces竞争对手的中值水平相当。
在更难的APPS数据集上,Parcel进一步超越了AlphaCode(7.8%->25.5%)。
展望未来,预测平台Metaculus给出的中位数是2027年,届时在APPS上将有80%的AI,将超越除了最优秀程序员之外的所有人类。
黑客
Jacob预测,GPT 2030的黑客能力将随着编程能力的提高而提高,而且,ML模型可以比人类更有规模、更认真地搜索大型代码库中的漏洞。
事实上,ChatGPT早已被用于帮助生成漏洞。
ChatGPT生成的网络钓鱼邮件
数学
Minerva在竞赛数学基准(MATH)上的准确率达到50%,优于大多数人类竞争对手。
而且,它的进步速度很快(一年内>30%),而且通过自动形式化、减少算法错误、改进思维链和更好的数据的加持,取得了显著的成果。
Metaculus预测,到2025年GPT的数学成绩将达到92%,AI在国际数学奥赛中获得金牌的中位数为2028年,能够比肩全世界成绩最拔尖的高中生。
Jacob个人预计,GPT 2030在证明定理方面将优于大多数专业数学家。
信息处理
回忆事实和处理大型语料库,是语言模型的记忆能力和大型上下文窗口的自然结果。
根据经验,GPT-4在MMLU上的准确率达到 86%,这是一套广泛的标准化考试,包括律师考试、MCAT以及大学数学、物理、生物化学和哲学;即使考虑到可能存在测试污染,这也超出了任何人类的知识广度。
关于大型语料库,有研究人员使用GPT-3构建了一个系统,该系统发现了大型文本数据集中的几种以前未知的模式,以及某篇工作中的缩放率,这表明模型很快就会成为「超人」。
这两项工作都利用了LLM的大型上下文窗口,目前该窗口已超过100,000个token,并且还在不断增长。
更一般地说,机器学习模型具有与人类不同的技能特征,因为人类和机器学习适应的是非常不同的数据源(前者是通过进化,后者是通过海量的互联网数据)。
当模型在视频识别等任务上达到人类水平时,它们在许多其他任务(例如数学、编程和黑客攻击)上可能会成为超人。
此外,随着时间的推移,会出现更大的模型和更好的数据,这会让模型功能变得更为强大,不太可能低于人类水平。
虽然当前的深度学习方法可能在某些领域达不到人类水平,但在数学这类人类进化并不擅长的领域,它们很可能会显著超越人类。
推理速度
为了研究ML模型的速度,研究人员将测量ML模型生成文本的速度,以每分钟想到380个单词的人类思维速度为基准。
使用OpenAI的chat completions API,GPT-3.5每分钟可以生成1200个单词 (wpm),而GPT-4可以生成370wpm,截至2023年4月上旬。
像Pythia-12B这样的小型开源模型,通过在A100 GPU上使用开箱即用的工具,至少可以生成1350个单词wpm, ,通过进一步优化,可能还会达到2倍。
因此,如果我们考虑截至4月份的OpenAI模型,它要么大约是人类速度的3倍,要么等于人类速度。因为加速推理存在强大的商业化压力,未来模型的推理速度还会更快。
事实上,根据Fabien Roger 的跟踪数据,在撰写本文之前的一周,GPT-4的速度已经提高到约540wpm(12个token/秒);这表明空间仍然很大。
Steinhard的中位数预测是,模型每分钟生成的单词数将是人类的5倍(范围:[0.5x, 20x]),这大致是进一步增加的实际收益会递减的地方。
重要的是,机器学习模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代价是吞吐量降低k倍(换句话说,模型的$$k^3$$并行副本可以替换为速度快$$k^2$$倍的单个模型)
这可以通过并行平铺方案来完成,理论上该方案甚至适用于$$k^2$$这样的大值,可能至少为100,甚至更多。
因此,通过设置k=5,可以将5倍人类速度的模型,加速到125倍的人类速度。
当然,速度并不一定与质量相匹配:GPT 2030将具有与人类
不同的技能特征,在一些我们认为容易的任务上,它会失败,而在我们认为困难的任务上,它会表现出色。
因此,我们不应将GPT 2030视为「加速的人类」,而应将其视为有潜力发展出一些违反直觉技能的「超级加速工人」。
尽管如此,加速仍然很有用。
对于提速125倍的语言模型,只要在GPT 2030的技能范围之内,我们需要一天时间的学会的认知动作,它可能在几分钟内就会完成。
运用前面提到的黑客攻击,机器学习系统可以快速生成漏洞或攻击,而人类却生成得很缓慢。
吞吐量和并行副本
模型可以根据可用的计算和内存任意复制,因此它们可以快速完成任何可以有效并行的工作。
此外,一旦一个模型被微调到特别有效,更改就可以立即传播到其他实例。模型还可以针对特定的任务进行蒸馏,从而运行得更快、更便宜。
一旦模型经过训练,可能会有足够的资源来运行模型的多个副本。
因为训练模型就需要运行它的许多并行副本,并且组织在部署时,仍然拥有这些资源。因此,我们可以通过估计训练成本,来降低副本数量。
比如,训练GPT-3的成本,足以运行9x10^11次前向传播。用人类等价的术语来说,人类以每分钟380个单词的速度思考,一个单词平均占1.33个token,因此9x10^11次前向传播相当于以人类速度工作约3400年。
因此,该组织可以以人类工作速度运行3400个模型的并行副本一整年,或者以5倍人类速度运行相同数量的副本2.4个月。
接下来,我们可以试着为未来的模型预测同样的「训练过剩」(训练与推理成本的比率)。这个数会更大,主要原因就是这个数值大致与数据集大小成正比,并且数据集会随着时间的推移而增加。
随着自然产生的语言数据被耗尽,这一趋势将会放缓,但新的模式以及合成或自我生成的数据仍将继续推动这一趋势。
上面的预测有些保守,因为如果组织购买额外的算力,模型可能会在比训练时使用的资源更多的资源上运行。
一个大致的估计显示,GPT-4的训练占用了世界上大约0.01%的计算资源,在未来它的训练和运行将占用全世界更大比例的算力,因此在训练后进一步扩展的空间较小。
尽管如此,如果组织有充分的理由这样做,他们仍然可以将运行的副本数量增加到另一个数量级。
知识共享
模型的不同副本可以共享参数更新。
例如,ChatGPT可以部署到数百万用户,从每次交互中学习一些东西,然后将梯度更新传播到中央服务器,随后应用于模型的所有副本。
通过这种方式,ChatGPT一小时内观察到的人性就比人类一生(100万小时 = 114年)还要多。并行学习可能是模型最重要的优势之一,这意味着它们可以快速学习任何缺失的技能。
并行学习的速度取决于模型同时运行副本的数量、获取数据的速度以及数据是否可以有效地并行利用。
即使是极端的并行化,也不会对学习效率造成太大影响,因为在实践中,数以百万计的批大小是很常见的,并且梯度噪声尺度预测在某个「关键批大小」以下,学习性能的降低将是最小的。
因此,我们重点关注并行副本和数据采集。
以下两个估计表明,可以让至少~100万个模型副本以人类速度并行学习。
这相当于人类每天学习2500年,因为100万天=2500年。
我们首先使用了上文第3节的数字,得出的结论是训练模型的成本足以模拟模型180万年的工作(根据人类速度进行调整)。
假设训练运行本身持续了不到1.2年,这意味着训练模型的组织拥有足够的GPU,以人类速度运行150万个副本。
第二个估算考虑了部署该模型的组织的市场份额。
例如,如果一次有100万个用户查询模型,那么组织必然有资源来提供100万个模型副本。
截至2023年5月,ChatGPT拥有1亿用户,截至2023年1月,每天有1300万活跃用户。
假设一般用户请求的是几分钟的模型生成文本,因此1月份的数字可能意味着每天大约5万人的文本。
然而,未来的ChatGPT式模型很可能会是这个数字的20倍,达到每天2.5亿活跃用户或更多,因此每天100万人的数据,是相当合理的。
作为参考,Facebook每天有20亿日活用户。
工具、模态和执行器
过去看,GPT风格的模型主要是在文本和代码上进行训练,与外部世界的交互方面,除了通过聊天对话之外能力有限。
然而,现在情况正在迅速改变,因为模型正在接受其他模态(如图像)的训练,并且开始与物理执行器进行接口交互。
此外,模型不会局限于文本、自然图像、视频和语音等人类中心的模态,它们很可能还将接受对于我们来说陌生的模态的训练,比如网络流量、天文图像或其他大规模数据来源。
工具
最近发布的模型使用了很外部工具,比如ChatGPT插件。
模型已经可以编写并执行代码,说服人类采取行动,进行API调用、交易,并潜在地执行网络攻击。
这种能力在未来还会进一步发展。
新模态
现在已经有了大规模的开源视觉-语言模型,比如OpenFlamingo,而在商业领域,GPT-4和Flamingo都是在视觉和文本数据上进行训练的。研究人员还在尝试更多非传统的模态配对,例如蛋白质和语言。
由于两个原因,我们应该预计大规模预训练模型的模态将继续扩展。
首先,从经济上讲,将语言与不太熟悉的模态(如蛋白质)配对是有用的,这样用户可以从解释中受益,并高效地进行修改。这意味着在蛋白质、生物医学数据、CAD模型以及与经济部门相关的其他模态上进行多模态训练。
其次,随着语言数据的耗尽,模型开发者将寻找新型的数据,来继续从规模效应中受益。
除了传统的文本和视频,一些最大的现有数据来源是天文数据(每天将很快达到exabytes级)和基因组数据(每天约0.1exabytes)。这些海量数据源有可能被用于训练GPT 2030。
使用非传统模态,意味着GPT 2030可能会具有非直观的能力。它可能会比我们更好地理解星星和基因,即使它并不具备体力。
这可能会带来一些意外发现,例如设计新颖的蛋白质。
执行器
现在,大模型还开始使用物理执行器:ChatGPT已经用于机器人控制了,OpenAI正在投资一家人形机器人公司。
然而,与数字领域相比,物理领域的数据收集成本要高得多,而且人类在进化上更适应物理领域(因此,机器学习模型要与我们竞争的门槛更高)。
Steinhard预测,在2030年,AI模型能自主组织一辆法拉利的概率是40%。
GPT-2030的影响
当像GPT-2030这样的AI出现,会对社会意味着什么?
可以推测,它会显著加速某些研究领域的发展,也有很大可能被滥用。
优势
GPT-2030,代表着一支庞大、高适应性和高吞吐量的员工队伍。
它可以在并行副本中完成180万年的工作,其中每个副本的运行速度是人类的5倍。
这意味着我们可以(在并行性约束的前提下)在2.4个月内,模拟180万个智能体工作一年的情况。
我们可以支付5倍的FLOP费用,来获得额外的25倍加速(达到人类速度的125倍),因此我们还可以在3天内,模拟14000个智能体工作一年的情况。
限制
限制这个数字化劳动力的,主要有三个障碍:技能要求、实验成本和自主性。
首先,GPT-2030的技能要求与人类不同,使其在某些任务上表现较差)。
其次,模拟的工作者仍然需要与世界接触以收集数据,这会产生时间和计算成本。
最后,现在的模型在进行一连串思考后,只能生成几千个token,之后就会「卡住」,进入一个不再产生高质量输出的状态。
或许GPT-2030在被重置或通过外部反馈引导之前,能够连续运行数个相当于人类工作日的时间。
如果模型以5倍的加速运行,这意味着它们每隔几个小时就需要人类监督。
因此,GPT-2030最有可能影响的任务是:
1. AI相对于人类的强项
2. 只需要能够方便快速地收集外部经验数据的任务(而不是昂贵的物理实验)
3. 可以事先分解为可靠执行的子任务,或具有明确且可自动化的反馈度量,以帮助引导模型的任务
加速!
同时满足上述三个标准的一个任务,就是是数学研究。
在第一点上,GPT-2030可能具有超人的数学能力。
在第二和第三点上,数学可以纯粹通过思考和写作来完成,而且如果一个定理被证明了,我们会知道。
此外,现在全球并没有多少数学家(在美国只有3000名),因此GPT-2030可能会在在几天内,就模拟出超过所有数学家一年内产出的成果。
机器学习研究也基本满足上述标准。
GPT-2030将具有超人的编程能力,包括实现和运行实验。
它在展示和解释实验结果方面也会表现相当出色,因为GPT-4能够以通俗易懂的方式解释复杂主题,同时市场也对此有很大需求。
因此,机器学习研究可能会简化为构思好要进行的实验,然后和高质量(但可能不可靠)的实验结果报告交互。
到2030年,硕博研究生可能会拥有和今天的教授相同的资源,仿佛手上带了几名优秀学生。
社会科学的发展可能也会显著加速。很多论文的大部分工作是追踪、分类和标记有趣的数据来源,并提取模式。
这满足了要求3,因为分类和标记可以分解为简单的子任务;也满足了要求2,只要数据可以在互联网上获得,或者可以通过在线调查收集到。
关键词:
下一篇:最后一页
- 个人护理小家电市场结构迎变局 新兴渠道规模不容小觑
- 广州科技活动周进入预热 明日正式启动300多场主题活动接踵而来
- 深化重点领域信用建设 广州正式出台新型监管机制实施方案
- 女童不慎掉入20米深井 18岁小姨三次下井成功营救
- 西安3个区域12月28日起每日开展全员核酸 官方提倡民众居家健身
- 浙江乐清一核酸检测结果异常人员 复采复检为阴性
- 浙江本轮疫情报告确诊病例490例 提倡“双节”非必要不出省
- 西安警方通报6起涉疫违法案件
- 西安新一轮核酸筛查日检测能力达160万管
- 西安市累计报告本土确诊病例811例
-
2023任贤齐上海演唱会地址+交通指南+入场须知
2023任贤齐[齐迹·在路上]巡回演唱会上海站将于9月8日-9月9日在东方体
-
第十届“香港大学生军事生活体验营”结业
中新社香港8月13日电第十届“香港大学生军事生活体验营”13日在中国人
-
台媒:手机市场复苏不及预期 高通清库存芯片大降价
台湾《经济日报》8月14日消息,手机市场复苏不及预期,业界传出,为刺
-
倡导绿色出行地铁里来了一群小小志愿者
8月10日上午,地铁二号线喇嘛营站来了一群小小志愿者,十多位中小学生
-
广东省推动新型储能产业高质量发展工作专班成立
8月11日,广东省发布《广东省人民政府办公厅关于成立广东省推动新型储
-
夏威夷毛伊岛大火后 华裔居民:劫后余生 倍感生命珍贵
夏威夷毛伊岛大火后华裔居民:劫后余生倍感生命珍贵在美国夏威夷毛伊岛
-
民警送老人平安回家
“警察同志,我在采油五厂8-11号楼和8-12号楼之间看到一位老人,疑似找
-
文山民办专科学校排名 云南大学排名最新排名
今天,大学路小编为大家带来了文山民办专科学校排名云南大学排名最新排
-
中国电信天翼网关密码(天翼网关密码)
诸多的对于中国电信天翼网关密码,天翼网关密码这个问题都颇为感兴趣的
-
遭遇泥石流,有些事情一定不要做!这份“自救指南”请查收
8月11日18时许,陕西省西安市长安区滦镇街道喂子坪村鸡窝子组(位于秦
X 关闭
UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识
山东污染环境刑事案件数量连续三年呈下降趋势
商务部等9部门:促进农村大宗商品消费更新换代
成都:到2025年义务教育优质均衡比例达80%
四字春联横批书法作品欣赏(四字春联横批)
X 关闭
焦点讯息:水发燃气董秘回复:根据《上海证券交易所股票上市规则》的规定
西安警方完成研考安保工作 共出动警力逾1.3万人次
得知西安疫情防控“升级” 男子夜骑共享单车回咸阳淳化
中国医生将任SIU主席背后:从追随者同行者到引领者
海南省通报政法队伍教育整顿成果