引言:一张广泛流传的Anthropic图表显示,AI理论上可能完成80%的工作任务。但深入研究发现,这些预测基于2023年对未来AI能力的推测性猜测,而非对当前模型的经验性测试。

如果你关注AI日益增长的经济影响这场持续不断的辩论,你可能见过Anthropic关于劳动力市场影响报告中流传的图表。它将职业的”实际观察暴露”(红色)与”理论能力”(蓝色)进行对比,涉及22个职业类别。粗略一看,该图表暗示基于LLM的系统可能完成广泛人类职业中至少80%的个人工作任务。
那个”AI理论覆盖”区域似乎注定要吞噬美国劳动力市场的很大一部分。然而,深入研究这些数字的基础,会发现AI的未来影响远没有那么可怕。
2023基准:GPTs are GPTs
Anthropic引用的LLM”理论能力”基准并非基于该公司自己对当前模型的实证测试,也不是基于可量化的性能增长预测。相反,它引用了2023年8月的一份报告——《GPTs are GPTs:大型语言模型对劳动力市场影响的早期观察》,由OpenAI、OpenResearch和宾夕法尼亚大学的研究人员共同撰写。
研究人员从O*NET的详细工作活动报告开始,该报告将许多工作的单个任务分解到非常细粒度的程度。然后,他们混合使用人工标注和GPT-4辅助标记来判断当时”最强大的OpenAI大型语言模型”是否能以”同等质量”将完成该任务所需时间减少至少50%。
关键的是,被咨询的人类并非实际从事这些工作的人,甚至不熟悉这些工作。他们是熟悉2023年AI技术水平的人,被要求对LLM最有用的地方做出广泛猜测。研究人员承认,由于标注者”对被评估的具体职业大多不知情”,标注的”主观性构成了我们方法的根本局限性”。
rubric对AI能力的假设
详细的rubric显示了对可能最易受LLM”直接暴露”职业的假设。研究者认为LLM能做的任务类型包括:
-
- 根据复杂指令编写和转换文本及代码
- 根据规范提供现有文本或代码的编辑
- 编写可帮助完成原本手工完成任务的代码
- 文本语言翻译
- 总结中等长度文档
- 对文档提供反馈
- 回答关于文档的问题
- 生成用户可能想就文档提出的问题
总的来说,这不是2023年LLM最擅长任务类型的糟糕列表。但仅仅因为LLM能够执行这些任务,并不意味着它能够以”同等质量”将完成任务所需时间减少至少一半的方式来做这件事。
请记住,2025年的一项研究发现,开源程序员使用AI后,在考虑编写提示和审查生成代码所花时间后,实际上比不使用AI的程序员慢19%。
在假设AI输出与人类输出”同等质量”之前,还要考虑LLM众所周知的幻觉倾向和谄媚特性。
“预期LLM驱动软件”的问题
即使对2023年代LLM能力进行如此宽松的解读,研究人员也估计,当时只有约15%的所有工作任务可以通过LLM将效率提高至少50%。只有约2.3%的职业看到其至少50%的O*NET任务以这种方式”暴露”给LLM。
为了获得Anthropic图表中显示的更惊人数字,研究人员不得不开始预测”预期LLM驱动软件”对各种工作的影响。这涉及到对未来可能建立在LLM之上软件的推测性猜测。
回想一下2023年8月,也就是GPT-4发布之后。那一刻可能是AI炒作的高峰期。大约在那个时候,埃隆·马斯克等人呼吁暂停AI开发六个月,原因是担心人类可能”失去控制”。
在社交媒体上流传的图表代表了那些被投射到未来的2023年推测性猜测,而非AI今天的实际水平或其必然发展方向。当你深入研究具体细节时,那个蓝色区域代表的是对AI可能提高人类生产力的过时且高度推测的猜测——而非AI必然取代人类的领域。
文章来源:网络
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。
