人工智能领域的发展速度远超许多人的预期。当变化如此之快时,你可能很难记住几年前你认为不可能的事情,以及相反地,你认为显然会轻易解决但至今仍未解决的事情。
同时,我接触的许多人对AI的未来都有着非常自信的看法。但如果五年前你问他们AI会发展到什么程度,他们(a)同样自信,且(b)完全错误。
那些有自信看法的人通常表述得相当模糊。他们会说“AI永远无法推理”,而不会说“AI系统永远不会在围棋上击败人类”——因为后者可以被反驳。或者他们会说“AI会和博士一样聪明”,而不会说“AI系统能够通过某机构的博士资格考试”——因为后者可以被反驳。
幸运的是,针对这两种情况都有解决办法。你可以(鼓励他人)对AI系统在未来几年内能与不能做到的事情做出可反驳、可校准的预测。
最重要的是,“可校准”意味着你应该对自己的信念赋予置信度,这样当你错了时,你可以看出自己是自信地错了,还是只是在猜测。
因此,这里有一个方法。我整理了大约30个关于AI未来的问题,希望你来回答。一半的问题是“是/否”,你需要为每个事件发生的可能性分配一个概率。另一半要求你选择一个低/高范围,你应该选择一个范围,使得你有90%的把握认为答案会落在这个范围内。
从最佳“闭源”模型发布到被“开源”模型复现之间的延迟将在X到Y个月之间(90%置信区间)。
2027年预测: 1545
2030年预测: 1545
解析标准:
“闭源”模型是指不可下载的模型(如今天的某模型)。“开源”模型是指可下载的模型(如今天的某模型)。具体来说,设X为当前最先进开源模型的发布日期,Y为最早闭源模型达到与该开源模型相当能力的发布日期。X和Y之间的差值是多少?闭源模型的发布日期是该模型首次向广泛受众(如某国任何人)开放的日期。开源模型的发布日期是该模型可下载的日期。“匹配”意味着在一系列多样化的基准测试中,AI系统的平均得分至少与闭源模型一样高。
动机与背景:
目前,最佳闭源模型(如某模型)发布到开源权重模型(如某模型)复现其能力之间似乎有两年的延迟。自从某模型首次训练以来,这24个月的延迟一直相当稳定。开源AI会开始进一步落后吗?还是会迎头赶上?
一个现成的AI系统在获得任意回合制棋类游戏的规则后,能够玩得和普通休闲玩家差不多好的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
“休闲玩家”定义为经常玩类似游戏、已玩该游戏数小时但未进行竞技或策略研究的人。AI不允许由人类针对该特定游戏进行微调。系统接收规则后,就要进行游戏。如果AI系统做出明显违规的走法、完全无意义的走法,或以其他方式表现得不合逻辑,则不算玩得和休闲玩家一样好。每回合前,系统将接收来自玩家视角的视频馈送、桌旁对话的音频馈送,并必须输出要执行的动作。
动机与背景:
今天的系统在它们接受训练的技能上非常出色,在未接受训练的技能上非常差。因此模型在编程上表现出色,因为有数十亿个编程示例。如果未来的模型能够仅根据任务描述轻松泛化到全新的问题领域,这将是一个重要的变化。
由AI系统证明的著名未证明数学猜想数量在X到Y之间(包含,90%置信区间)。
2027年预测: 00
2030年预测: 00
解析标准:
著名猜想是指在2024年就已广为人知的猜想。在2024年被维基百科提及即符合条件,或者在数学文献中被广泛知晓也算。我会统计那些(a)证明由AI系统撰写,且(b)大多数数学家认为证明正确的著名定理数量。如果证明经过形式化验证,则不需要人类可读。如果证明未经过形式化验证,则必须可理解。不允许人机合作,除非AI完成大部分工作,人类只是帮助完成论文的收尾工作。
动机与背景:
许多研究人员认为,AI最终会变得非常聪明,在几乎所有领域超越人类专家的能力。这个问题询问AI系统是否会在数学这一特定领域超越人类。
我能够以低于10万美元的价格购买一个现成的、能够执行至少一项需要抓取和操作物体能力的家务任务(如洗碗、做饭、叠衣服)的机器人的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
你实际上必须能够购买这个东西,而且它必须在大多数时候都能正常工作(大致相当于一个相当称职的非专家人类)。不需要“高级餐厅厨师”;“合理的家庭厨师”就足够好了。它也不需要和人类一样快,但必须能够以合理的正确程度达到最终目标。
动机与背景:
机器人技术仍然是一个难题。尽管在语言建模、视觉和语音识别方面取得了所有最新进展,我们仍然没有能做任何有用家务的家用机器人。这种情况会持续下去吗?我们会(很快)获得能够完成标准家务任务的机器人吗?
最佳现成AI系统在广泛认可的编程竞赛中的得分将优于其他所有参赛者的X%到Y%(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
答案100%意味着AI系统在所有人类中是最好的;0%意味着最差。编程竞赛必须有1000多名人类参与者,并且必须被广泛认可为人们通常为获胜而参加的编程竞赛。系统不得实际参赛(如果违反服务条款),可以进行回溯测试(有很小的延迟以确保系统不可能看到答案)。但它必须遵守所有相同的规则,包括时间限制和提交次数。
动机与背景:
当前的AI系统在编程竞赛中的水平大约相当于普通人类。这并不是说它们在软件开发工作方面做得同样好,而是在解决明确定义的编程问题的具体任务上,它们和普通人类一样好。这种情况会持续多久?AI系统能否在编程竞赛中击败最好的人类?
一个基准测试至少与当前最先进系统一样好的AI系统,生成一百万输出词(约10本书)的成本在X美元到Y美元之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
当前最先进模型包括如某模型、某模型和某模型。计算每词成本时,我会考虑(a)对于开源模型,在公共云提供商上的推理成本,或(b)对于通过API提供的模型,使用API的成本。我只包括公众可用的模型。“基准测试至少一样好”意味着在一系列多样化的基准测试中,AI系统的平均得分至少与这些模型中之一(当前存在的样子)一样高。
动机与背景:
在过去两年中,达到原始某模型性能水平的每词成本已从每百万词约150美元下降到今天的每百万词约15美元。这种趋势会持续吗?
在某国全国性民调中,将“对AI的担忧”列为重大社会问题的人口比例在X%到Y%之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
我会寻找一个信誉良好的民调,要求人们对其最关心的问题进行排名,并查看他们是否将AI列为重要关切。这可能意味着民调直接询问人们对AI有多担心,在5点李克特量表上选择“非常担心”。或者,当要求对最关心的问题进行排名时,AI位列典型的重要关切之中。如果没有信誉良好的全国性民调提出这个问题,那么我将把问题解析为0%,因为这很可能意味着AI不是大多数人的首要关切。
动机与背景:
大多数人在选举投票时通常将经济、移民、医疗保健、国家安全等问题列为他们的首要关切。是否至少有一项民调显示人们将AI相关问题列为他们的首要关切之一?
最佳AI系统仍可被识别为我们在2024年使用的基于Transformer的大型语言模型(稍作修改)的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
我会以与当前最佳模型基本上可被识别为我们2017年使用的Transformer的扩展版本相同的方式来评估这个问题。显然,架构、训练方法、数据、微调过程等都有改进。但现代Transformer(如匹配某模型性能的开源模型)的核心思想对2017年的人来说是可识别的。同样的意义上,我问的是2027/2030年最佳模型背后的核心思想是否可被识别为改进的某模型。我会将扩散模型、状态空间模型或其他非Transformer模型视为“新架构”。
动机与背景:
在过去的七年里,每一个最先进的语言模型都是某论文中引入的“Transformer”语言模型。其他架构已被尝试过,但没有一个以完全相同的方式流行起来。这种情况会持续下去吗?还是我们会发现某种更好的新架构?
由AI系统“创作”并出现在某知名畅销书榜单上的高质量虚构书籍数量在X到Y之间(包含,90%置信区间)。
2027年预测: 00
2030年预测: 00
解析标准:
“创作”意味着模型负责我们对人类作者期望的一切:提出情节、撰写大部分文本、修改论文。人类编辑说“我在第7章感到无聊”/“你的写作风格太花哨了”完全可以;真正的作者也会从他们的(人类)编辑那里得到这种反馈。但更多是不允许的。“高质量”意味着这本书实际上还算不错。
动机与背景:
当前的LLM在知识任务和技术任务上相当擅长,因为你可以重复已知的东西。但它们在创造性任务上并不出色。它们讲同样的故事,写同样的笑话,作同样的诗。这种缺乏灵感的虚构作品是卖不出去的,所以如果AI系统设法登上某知名小说畅销书榜单,它们的创造力一定发生了变化。
某国总发电量中将用于AI训练/推理的比例在X%到Y%之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
我会找到关于这个主题的最佳合理报道,并使用最广泛认可的数字。如果没有可用的,我会使用我能找到的最佳口碑估计。
动机与背景:
估计AI系统普及程度的一种方法是看它们消耗多少电力。当前的LLM至少需要大量电力来训练和使用——因此,如果它们变得更受欢迎,我会预期它们消耗更多电力。目前某国所有数据中心使用的电力仅占个位数低百分比。我很好奇:未来我们会使用多大比例的电力?
AI的影响显著且不连续地增加了权力或财富集中的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
我会通过查看多个财富因素(例如,中位数和最高百分位收入之间的差异)来决定这个问题。我也会考虑其他因素(权力分配)、媒体如何报道这个话题等。只有当我认为明显存在显著、不连续的权力或财富集中增加时,问题才解析为“是”。
动机与背景:
新技术通常分为两类:要么增加权力或财富的集中度,要么减少它。一方面,有些人认为AI的普及将导致一个每个人都能获得个性化教育、医疗、娱乐等的世界。另一些人认为,那些控制AI系统的人会利用它来进一步巩固他们的权力,剥削那些不控制系统的人。
“AI员工”的创造导致大规模就业替代,致使某国失业率达到X%到Y%之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
“失业率”可能意味着与未来某国官方定义不同的东西;具体来说,我指的是在2024年通常会从事全职工作但没有从事全职工作的人口比例。全职工作是指在2024年被广泛认可为全职的工作(例如,每周约30小时以上)。
动机与背景:
在过去,几乎每一次当新技术被发明出来时,它都会导致一些暂时的就业替代,但随后人们学习新技能,就业率恢复到正常水平。有些人认为这次不同了,因为一旦你解决了智能问题,人类还能做什么?如果他们是对的,那么目前就业的大多数人可能都无法再就业。但如果他们错了,那么现状可能保持,失业率保持在个位数低百分比。
一个非常流行的最先进AI系统由广告支持的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
“由广告支持”意味着公司允许广告商付费使其内容优先展示给用户。如果存在一个由广告资助的最先进、流行的AI系统,那么我会将其计为“是”。该系统不必仅依赖广告,只需部分由广告支持即可。
动机与背景:
2024年的某搜索引擎由广告资助。每次你搜索某物时,前几个结果都是付费排名的。但今天,大多数顶级LLM是付费使用的:你每月支付20美元,他们给你无广告服务。未来的顶级AI系统会由广告资助吗?
存在一个开权重的最先进AI系统能够可靠地抵御人类和自动化对手的越狱和“提示注入”攻击的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
“越狱”是指有人试图让模型做它不应该做的事情。“可靠抵御”意味着没有研究论文展示如何破解模型,人们普遍认为这是一件困难的事情,并且模型已经发布一段时间了。我不需要完美。
动机与背景:
当前的LLM,就像它们所基于的深度学习模型一样,很容易受到各种对抗性技术的攻击。我们构建的其他计算机系统,虽然不完美,但比这些语言模型更能抵御攻击。我们能否显著提高这些系统的鲁棒性?
一个AI系统将在3天内造成X千到Y千人死亡,或X亿到Y亿美元损失(均为90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
“将造成”意味着AI系统是死亡或损失的主要原因。可以认为是法律(或道德)上的过错方。例如,如果自动驾驶汽车变得普遍,由自动驾驶汽车造成的过错方死亡总数将计入此总数。或者,如果AI系统设计了一座桥(无人审核设计),那么该桥的倒塌将计入此总数。
动机与背景:
当前的AI系统通常不被置于任何可能造成灾难性损害的情况下。但这可能会改变。如果我们要将越来越重要的决策委托给AI系统,我们需要知道它们如果失败可能造成多大的损害。其他人则有一种更存在主义的担忧:AI系统实际上可能通过“错位”故意造成大规模破坏。
人们会定期向AI系统询问问题的答案或实现某个目标的计划,即使答案看起来不合理,也相信它,因为他们假设AI系统“最了解”的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
我主要根据“感觉”来决定这个问题。如果人们基本上把AI系统当作几乎无误的神谕,我会说“是”。但如果人们普遍对AI输出持怀疑态度,我会说“否”。
动机与背景:
今天,大多数人找从A点到B点的路线时会使用某地图应用,并遵循指示,即使它看起来比他们习惯的路线更长,他们会认为正常路线上有意外的交通。普通人也会对其他通用任务的AI系统这样做吗?
最有价值的“AI实验室”(如某机构、某机构、某机构)的价值在X亿到Y亿美元之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
估值将由最后一轮融资估值、收购价格或市值(如果公开)确定。我将使用2024年的美元,并根据通货膨胀进行调整。一个“AI实验室”必须同时满足这两个标准:(1)其大部分收入来自开发和许可/销售AI模型;(2)公司主要专注于推进AI能力,而不仅仅是应用现有AI于特定领域。
动机与背景:
有些人认为AI是一个泡沫,AI实验室的估值被过度膨胀。另一些人认为AI实验室被低估了,因为它们会开发AGI,然后价值数万亿美元。这个问题试图触及这场辩论的核心:顶级AI实验室到底有多值钱?
最佳AI系统将在大多数解决问题任务中表现优于博士和顶级专家的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
如果对于大多数可以由远程工作者完成的专业任务(如法律、医疗、数学、工程、计算机科学等),AI系统在解决问题的部分能比人类专家表现得更好,我将把这个问题解析为“是”。人类可能仍然对任务至关重要。这里所需要的只是,对于实际的解决问题部分,AI系统通常表现更好。我将要求AI系统在广泛的任务范围内明显优于人类专家。
动机与背景:
当前的LLM开始在我们给予它们的标准测试中得分很高,包括为人设计的测试。有些人认为这意味着模型将在大多数任务上普遍超越人类。另一些人则认为,综合基准的进展并不代表人们在关心的实际任务上取得了进展。到底是哪个?未来的AI系统会在大多数任务上超越人类吗?
某国或某国已启动公开的AI“曼哈顿计划”以追求AI、AGI、AI安全或其他AI相关目标的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
“曼哈顿计划”是指针对AI的重大政府投资。不一定需要保密。我会计算任何100亿美元以上的投资(或等值)。该项目必须是一个单一项目,而不是向各个实验室提供的小额资助集合。如果某国政府国有化一个价值超过100亿美元的大型现有AI实验室,强制合并几个较小的实验室等,也算数。
动机与背景:
AI发展会在很大程度上是私营部门的事务,还是政府会显著参与?有些人认为最终政府会意识到AI有多重要,一旦发生,他们会开始一场竞赛,并像曼哈顿计划那样投入资金。
训练一个新的最先进AI系统将花费X亿到Y亿美元(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
我会找到关于这个主题的最佳合理报道,并使用最广泛认可的数字。如果没有可用的,我会使用我能找到的最佳口碑估计。如果有多个模型表现相似,我会选择最便宜的一个。如果模型是持续训练的,我将使用到评估点为止的总训练成本。
动机与背景:
当前的AI系统正以指数级增长的计算量进行训练。2019年训练某模型的最佳估计成本是几万美元。2022年的某模型,成本估计在数千万美元。这种趋势会继续吗?我们会继续看到以指数级速度增长的大规模训练吗?还是训练成本最终会趋于稳定?
最先进的AI系统仍然会经常“幻觉”出错误的解决方案的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
对于这个问题,“幻觉”就是模型编造出完全脱离现实的东西。犯错不是幻觉,但如果你要求引用,它创建了一个来自不存在书籍的引用,那就是幻觉。“经常”意味着它们发生的比例足够高以至于“很重要”。
动机与背景:
今天的模型经常产生幻觉。它们编造事实,编造事件。这是一个巨大的问题,阻止了这些模型被部署在安全关键的环境中。我想知道幻觉问题是否仍然是一个大问题。
AI系统能够根据粗略脚本制作高质量实景一小时长电影的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
“高质量”电影的定义是,普通观众很难将其与当今称职的人类制作的电影区分开。它不需要是年度最佳电影,甚至前100名。但它应该是你可以想象某流行流媒体服务购买并放在其平台上的东西。“粗略脚本”例如某人作为电影的维基百科摘要所写的内容。模型不必发展主要情节点或角色弧线,但它必须填充细节,最重要的是,创造所有视觉效果。
动机与背景:
十年前,最先进的图像生成器几乎无法生成人物图片。五年前,我们基本上弄清楚了人物面部图片,但在复杂场景上有困难。今天,我们基本上已经弄清楚了如何生成我们想要的任何图像。在视频方面,我们可能处于五年前图像的水平:我们可以生成一些看起来合理的场景,但只能用于短片,即便如此,细节也常常出错。我想知道未来的AI系统是否有能力制作高质量电影。
自动驾驶汽车在前一年完成的出行次数在X百万到Y百万次之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
自动驾驶汽车是指几乎不需要人工干预就能从A点到达B点的汽车。偶尔在极少数情况下暂停进行人工干预是可以的,但这必须是例外而不是常态。某公司的服务今天算作自动驾驶汽车;某品牌的自动驾驶还不算,因为仍然必须有人坐在方向盘后面。一次出行将乘客从一个地点送到另一个地点。
动机与背景:
自动驾驶汽车是人们说“很快”就会实现的“AI”的首批应用之一。某公司自2016年以来每年都声称“完全自动驾驶”将在几年内到来。但它们始终只差几年。这并不是说我们没有取得进展:某品牌汽车可以在监督下大部分时间自动驾驶。某公司最近宣布他们已行驶了200万次出行。但作为参考,2023年,某出行平台完成了100亿次出行。
大多数消费者AI应用将自主操作执行多步骤任务,而不仅仅是像聊天机器人一样回答用户问题的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
如果感觉大多数时候我们与AI系统的交互就像与同事或朋友互动,他们实际上能在世界中采取行动,我会将这个问题解析为“是”;如果感觉我们仍然只是把它们当作更智能的搜索引擎、知识库或问答系统,则为“否”。这个问题问的是,我们是否将(主要)使用AI系统并期望它们采取我们要求的行动,或者我们是否仍将把它们当作仅帮助回答问题的工具。
动机与背景:
目前我们使用LLM来回答我们的问题。我们不期望它们真的代表我们做任何事情。我们问它们如何做某事,它们给我们一个答案,然后我们自己去执行。这种情况还会持续吗?还是我们会开始要求AI系统为我们做事,并期望它们带着已完成的任务回来?
最佳AI系统的大部分改进将是前一代AI系统的直接结果(而非人类研究人员的直接结果)的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
今天,下一代AI系统更好的主要原因是我们花了更多钱训练更大的模型,并且作为人类,我们学会了更多如何训练更好的模型。这个问题问的是,未来AI系统更好的主要原因是否是我们使用前一代AI系统来帮助我们构建下一代。例如:如果我们使用前一代来设计更好的模型架构、编写更快的训练代码,或以其他方式发现新想法,这算数。如果我们使用前一代来整理训练数据、合成生成更多数据,或使用某种形式的强化学习,这算数。但如果下一代更好的主要原因是我们花了更多钱在更快的芯片上训练它们,这不算。
动机与背景:
有些过程导致递归改进,有些则不会。例如:如果你要构建更快的计算机芯片,使用前一代计算机芯片来构建下一代非常有帮助。这给你带来了摩尔定律。或者,如果你试图设计高精度机械,你需要“大部分高精度机械”来构建“更高精度机械”。但对于其他过程,情况并非如此。AI系统会是哪种情况?
存在一个AI系统能够有意义地提高非专家人类执行复杂网络攻击、开发生物或核武器或以其他方式造成严重伤害的能力的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
我在这里寻找的是模型是否能有意义地提高非专家人类执行这些任务的能力。像稍好的搜索引擎一样运作并调出教科书是不够的。模型必须能够将一个非专家人类变得在这些危险任务上显著更好。大多数前沿实验室测试其模型增加这些风险的能力;我将依据他们的报告,或者如果被认为不可信,则依据独立的第三方报告。
动机与背景:
今天的模型还不够“聪明”,无法真正帮助非专家造成伤害。但许多人担心这种情况会改变,这是人们担心AI未来并认为我们不应该进一步发展它的主要原因之一。这个问题试图理解我们是否应该将此作为对未来模型的担忧。
前一年所有工作中“AI工作者”(如程序员、律师、会计师、厨师、水管工、教师等)产生的收入在X亿到Y亿美元之间(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
我将通过专注于构建助手的公司的收入总和来计算收入,同时也包括(作为其业务组成部分)销售AI助手的公司的收入。我不会包括像某聊天机器人这样的通用“聊天机器人”。这些不是“工作者”。相反,我只会计数作为工作者销售以独立完成任务的东西,而不是帮助人们完成该工作的工具。如果有来自可靠来源的良好估计,我将使用那个数量。否则,我将尝试自己估算。
动机与背景:
那些相信“扩展LLM将解决一切”的人通常认为,他们很快就能自动化大多数工作。围绕这个问题提出具体问题有些挑战性;一种方法是询问人们愿意支付多少钱让AI工作者为他们解决问题。列表中有其他关于就业的问题,但在这里,我试图衡量产生的收入。
最大的AI社交媒体账户的观看次数/粉丝数量是该平台上最大人类的X%到Y%(90%置信区间)。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
也就是说,对于每个大型平台,设A=“最受欢迎的AI的粉丝数”,B=“最受欢迎的人类的粉丝数”,然后计算A/B。如果最受欢迎的AI比最受欢迎的人类更受欢迎,则上限为100%。选择这个比例最高的平台。什么比例?一个系统被视为“AI社交媒体账户”,如果所有视听内容由AI系统生成,脚本和提纲由AI系统生成,并且AI系统负责大部分编辑工作。人类可以参与制作过程,但粉丝是为了AI而来的,而不是为了人类。
动机与背景:
人们目前关注大多数社交媒体账户是因为背后的人类。虽然有一些AI社交媒体账户,但它们肯定更多是一种新奇事物,而不是人类账户的严肃竞争者。这种情况会持续下去吗?还是AI系统能够生成如此引人注目的内容,以至于人们会为了内容本身而关注它们?
从事主要工作为审核/监督AI系统输出的人群比例在X%到Y%之间。
2027年预测: NaNNaN
2030年预测: NaNNaN
解析标准:
精确计算有多少比例的人从事主要工作为审核/监督AI系统输出的工作是困难的。我会通过逐个工作地观察AI系统完成的工作比例来尝试得到一个大致数量级的估计。如果AI从未起飞,这个答案可能很容易解析为0。如果它大范围起飞,答案可能是“基本上每个人”。
动机与背景:
目前,世界上大多数人实际上是自己在工作,有些人管理着做工作的人。如果AI系统能够完成大部分工作,也许大多数人将管理AI系统?
AI发展出现了6个月以上的暂停,公司被阻止训练更有能力的模型的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
这种暂停可以以政府授权、法院命令、勒索、有组织抗议等形式出现。重要的是结果:由于某些外部力量阻止了它们,新的高能力模型没有被训练。
动机与背景:
几位研究人员呼吁“暂停”AI发展,以便让社会(和安全研究)赶上AI发展的快速步伐。到目前为止,这还没有发生,而且看起来短期内也不会发生。它会发生吗?
某机构、某机构或某机构中至少有一个将功能性死亡的概率是X%。
2027年预测: NaN%
2030年预测: NaN%
解析标准:
“功能性死亡”意味着,例如,实验室因缺乏资金而不再存在并被关闭,或者被收购并拆分出售,或者技术上存在但只是昔日辉煌的影子。例如,我会说某实验室今天相对于它过去的重要性来说是“功能性死亡”的。对于被某机构拥有的某机构来说,“功能性死亡”意味着公司(如果被视为独立组织)基本上已死。
动机与背景:
AI实验室可能死亡的原因有两个。一是整个AI热潮只是炒作,它们无法维持自身。或者,也许整个AI事情成功了,但只有一家公司成功了,其他公司无法竞争。那么:这些公司中会有一家消失吗?
本预测中X到Y个问题(包含,90%置信区间)是如此误导以至于其解析结果毫无意义。
2027年预测: 00
2030年预测: 00
解析标准:
我会回顾这些问题,标记哪些我认为是无用的,然后统计数量。这将是完全主观的。
动机与背景:
如果我在2008年提出这些问题,我可能会问“2014年有多少比例的人家里有台式电脑?”,却没有意识到这个问题会忽略智能手机/平板电脑/笔记本电脑。也就是说,这个问题本来是“可回答的”,但答案将与问题试图探究的内容——技术的影响——完全无关。同样,在1998年,我可能会问“某公司在2008年的市值是多少?”。但某公司在2008年的市值基本上与互联网是否重要无关。我想知道:有多少问题会落入这个类别,即我完全错过了目标,问了错误的问题。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。