bitpie官网首页|GPT-4抽象推理PK人类差距巨大！多模态远不如纯文本，AGI火花难以独立燃烧 - AI新智界

2024-01-02 02:19:15来源：bitpie官网首页编辑：标签：

文章导读: 要想从GPT-4的水平发展出AGI，还任重道远！...

原文来源：新智元

图片来源：由无界 AI生成

圣达菲研究所的科研人员用非常严谨的定量研究方法，测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI，还任重道远！

GPT-4，可能是目前最强大的通用语言大模型。一经发布，除了感叹它在各种任务上的出色表现之外，大家也纷纷提出疑问：GPT-4是AGI吗？他真的预示了AI取代人类那一天的到来吗？

推特上也有一众网友发起了投票：

其中，反对的观点主要在于：

- 有限的推理能力：GPT-4被诟病最多的就是不能执行「反向推理」，而且难以形成对世界的抽象模型进行估计。

- 任务特定的泛化：虽然GPT-4可以在形式上进行泛化，但在跨任务的目标方面可能会遇到困难。

那到底GPT-4的推理能力和抽象能力和人类相比，有多大的差距，大家的这种感性似乎一直没有定量的研究作为支撑。

而最近圣达菲研究所的科研人员，系统性地对比了人类和GPT-4在推理和抽象泛化方面的差距。

论文链接：https://arxiv.org/abs/2311.09247

研究人员在GPT-4的抽象推理能力方面，通过ConceptARC基准测试评估了GPT-4文本版和多模态版的表现。结果说明，GPT-4仍与人类有较大差距。

ConceptARC是如何测试的？

ConceptARC基于ARC之上，ARC是一组1000个手动创建的类比谜题（任务），每个谜题包含一小部分（通常是2-4个）在网格上进行变换的演示，以及一个「测试输入」网格。

挑战者的任务是归纳出演示的基础抽象规则，并将该规则应用于测试输入，生成一个经过变换的网格。

如下图，通过观察演示的规则，挑战者需要生成一个新的网格。

ARC设计的目的在于，它强调了捕捉抽象推理的核心：从少量示例中归纳出普遍规律或模式，并能够灵活地应用于新的、以前未见过的情况；而弱化了语言或学到的符号知识，以避免依赖于先前训练数据的「近似检索」和模式匹配，这可能是在基于语言的推理任务上取得表面成功的原因。

而ConceptARC在此基础上，改进为480个任务，这些任务被组织成特定核心空间和语义概念的系统变化，如Top和Bottom（上和下）、Inside和Outside、Center（里面，外面，中间），以及Same和Different（相同，不同）。每个任务以不同的方式实例化该概念，并具有不同程度的抽象性。

在这种改动下，概念更加抽象，也就是说对人类来说更加容易，结果也更能说明GPT-4和人类在抽象推理方面的能力对比。

测试结果，GPT-4比起人类还有很大差距

研究人员分别对纯文本的GPT-4和多模态的GPT-4进行了测试。

对于纯文本的GPT-4来说，研究人员使用更加表达丰富的提示对GPT-4的纯文本版本进行评估，该提示包括说明和已解决任务的示例，如果GPT-4回答错误，会要求它提供不同的答案，最多尝试三次。

但在不同的温度设置下（温度是一个可调节的参数，用于调整生成的文本的多样性和不确定性。温度越高，生成的文本更加随机和多样，可能包含更多的错别字和不确定性。），对于完整的480个任务，GPT-4的准确率表现都远远不如人类，如下图所示。

而在多模态实验中，研究人员对GPT-4V进行了评估，在最简单的ConceptARC任务的视觉版本上（即仅仅48个任务），给予它与第一组实验中类似的提示，但使用图像而不是文本来表示任务。

结果如下图所示，将极简的任务作为图像提供给多模态GPT-4的性能甚至明显低于仅文本情况。

这不难得出结论，GPT-4，可能是目前最强大的通用LLM，仍然无法稳健地形成抽象并推理关于基本核心概念的内容，而这些概念出现在其训练数据中之前未见过的上下文中。

网友分析

有位大牛网友对于GPT-4在ConceptARC上的表现，发了足足5条评论。其中一条主要原因解释道：

基于Transformer的大型语言模型的基准测试犯了一个严重错误，测试通常通过提供简短的描述来引导模型产生答案，但实际上这些模型并非仅仅设计用于生成下一个最可能的标记。

如果在引导模型时没有正确的命题逻辑来引导和锁定相关概念，模型可能会陷入重新生成训练数据或提供与逻辑不完全发展或正确锚定的概念相关的最接近答案的错误模式。

也就是说，如果大模型设计的解决问题的方式是上图的话，那实际需要解决问题可能是下图。

研究人员说，对于提升GPT-4和GPT-4V在抽象推理能力的下一步，可能尝试通过其他提示或任务表示方法实现。

只能说，对于大模型真的能完全能达到人类水平，还是任重而道远啊。

参考资料：

https://arxiv.org/abs/2311.09247

上一篇：Bitpie下载|GPT-5不会真正突破，24年AGI不会实现！全网AI大佬24年最全预测 - AI新智界 返回首页 返回栏目

下一篇：没有了

头条资讯

bitpie官网首页|GPT-4抽象推理PK人类差距巨: Bitpie下载|GPT-5不会真正突破，24年AGI不会比特派钱包下载|AI绘图模型不会写字的难 Bitpie|一年增加 302 亿美元，英伟达 CEO 黄

比特派钱包安卓下载|沃尔玛利用人工智能: 比特派钱包app官方下载|GitHub年终福利，编比特派钱包官网下载|Hugging Face：2023开源 bitpiecom官网下载|ChatGPT模型中的1750亿参数

bitpie安卓版下载|人工智能迈出具备意识的: Bitpie|北京经信局副局长王磊：生成式人工比特派钱包|中信建投：AI 浪潮来袭硅光 bitpie.com官网下载|凯文·凯利：大语言模型

近期热点

热门文章

日榜周榜: 1 bitpie官网首页|GPT-4抽象推理PK人类差距巨
要想从GPT-4的水平发展出AGI，还任重道远！...
2 Bitpie下载|GPT-5不会真正突破，24年AGI不会
24年，AI技术会有哪些突破？...
3 比特派钱包下载|AI绘图模型不会写字的难
能准确写汉字的AI绘图工具，终于登场了！...
4 Bitpie|一年增加 302 亿美元，英伟达 CEO 黄
据 IT 之家 12 月 31 日消息，英伟达公司首席执行官黄仁勋 2023 年的身价飙升至令人咋舌的 440...
5 比特派钱包安卓下载|沃尔玛利用人工智能
据站长之家 12 月 29 日消息：在人工智能的助力下，沃尔玛计划在今年圣诞季确保顾客的购物...
6 比特派钱包app官方下载|周鸿祎：明年大模
据IT 之家 12 月 31 日消息，360 集团创始人、董事长周鸿祎宣布数字发言人“数字老周”今日正...
7 比特派钱包app官方下载|GitHub年终福利，编
2023 年的最后一两天，GitHub 面向编程的聊天机器人 Copilot Chat 为所有人放出了最后一波福利！...
8 比特派钱包官网下载|Hugging Face：2023开源
2023年的LLM开源社区都发生了什么？来自Hugging Face的研究员带你回顾并重新认识开源LLM...
9 bitpiecom官网下载|ChatGPT模型中的1750亿参数
我们经常会看到在介绍大语言、扩散等模型时，会在后面或前缀加上100亿、500亿、2000亿等各种...
10 bitpie安卓版下载|人工智能迈出具备意识的
据 IT 之家 12 月 31 日报道，近日，第 37 届神经信息处理系统年会在美国新奥尔良市举行。在会...; 1 bitpie官网首页|GPT-4抽象推理PK人类差距巨
要想从GPT-4的水平发展出AGI，还任重道远！...
2 Bitpie下载|GPT-5不会真正突破，24年AGI不会
24年，AI技术会有哪些突破？...
3 比特派钱包下载|AI绘图模型不会写字的难
能准确写汉字的AI绘图工具，终于登场了！...
4 Bitpie|一年增加 302 亿美元，英伟达 CEO 黄
据 IT 之家 12 月 31 日消息，英伟达公司首席执行官黄仁勋 2023 年的身价飙升至令人咋舌的 440...
5 比特派钱包安卓下载|沃尔玛利用人工智能
据站长之家 12 月 29 日消息：在人工智能的助力下，沃尔玛计划在今年圣诞季确保顾客的购物...
6 比特派钱包app官方下载|周鸿祎：明年大模
据IT 之家 12 月 31 日消息，360 集团创始人、董事长周鸿祎宣布数字发言人“数字老周”今日正...
7 比特派钱包app官方下载|GitHub年终福利，编
2023 年的最后一两天，GitHub 面向编程的聊天机器人 Copilot Chat 为所有人放出了最后一波福利！...
8 比特派钱包官网下载|Hugging Face：2023开源
2023年的LLM开源社区都发生了什么？来自Hugging Face的研究员带你回顾并重新认识开源LLM...
9 bitpiecom官网下载|ChatGPT模型中的1750亿参数
我们经常会看到在介绍大语言、扩散等模型时，会在后面或前缀加上100亿、500亿、2000亿等各种...
10 bitpie安卓版下载|人工智能迈出具备意识的
据 IT 之家 12 月 31 日报道，近日，第 37 届神经信息处理系统年会在美国新奥尔良市举行。在会...