现在,人工智能可以参加小学数学考试了,而且考了50多分。 

日前,人工智能研究机构OpenAI的研究人员使用新方法,训练出一个会做数学题的系统——GPT-f。它能像真正的学生一样,解决90%的数学应用题。在提供的数据集中进行的小样本测试表明,9至12岁学生测试得分为60%,该系统测试得分55%。 

这个仅60 亿参数的GPT-f,在解决数学应用题方面,效果直逼参数规模高达1750 亿的GPT-3。在业界认为人工智能的大模型时代已经到来的背景下,这是否能引发大家的一些“冷思考”?

不俗的成绩    

去年6月,OpenAI推出GPT-3,这个能完成对话、搜索、写作等多项任务的大模型一面世就引起轰动。尤其在文本生成方面,GPT-3的表现几乎可以与人类的作品媲美。 

在训练GPT-f时,研究人员创建了高质量、高多样性、中等难度和自然语言的答题形式的数据集(GSM8K)进行反复训练。测试结果发现,这个仅60亿参数的GPT-f准确率翻倍,甚至优于拥有1750亿参数,采用微调方法的GPT-3模型。

 “GPT-f能达到这个效果还是有些出乎意料。”清华大学人工智能研究院常务副院长孙茂松对《中国科学报》说,“但它并未提出非常深刻的问题,没那么让人惊喜,也不必做过度的解读。”

 孙茂松解释说,让人工智能解决数学应用题还是有难度的。当前的人工智能技术都是基于大数据的一种概率式推断模型,其内部并没有深刻的理解机制。比如,曾轰动一时的GPT-3本身是个语言模型,它看过大量人类创作的作品,包括互联网所有的文章,所以它能在写文章、自然对话、语义搜索甚至自动编程等方面有着不俗的表现。然而,它很难完成需要精细理解的多步骤推理任务,比如解决小学数学应用题。

 “做数学应用题首先要正确理解题意,才能把题做出来。”孙茂松说,“虽然实现这一任务对人类来说很简单,但对人工智能目前尚缺乏一个有效的理解机制,尽管类似GPT-f这样的模型可以推导出正确的答案,但难免也会产生严重的逻辑错误。” 

让人工智能在复杂逻辑条件下,具备解决问题的能力,模型必须具有判别自身错误的能力,并谨慎地执行之后的过程。为此,OpenAI的研究者提出一个训练“验证器”来判断模型完成的正确性。 

OpenAI的GSM8K数据集由8.5K高质量小学数学应用题组成,每个问题需要2到8步解决,涉及加减乘除运算,难度近乎9至12岁小学生的学数学题。在测试阶段,这个验证器会生成多个候选解决方案并选择排名最高的一个。

 “我没想到GPT-f能得这么高分,即使它取得30多分我也觉得合理。”孙茂松说,“它能把这个事做得跟小学生及格分数差不太多的确不很容易。”

不公平的对比    

时至今日,参数规模达1750亿的GPT-3仍被人们视为“大力出奇迹”的结果。而仅凭新的“验证”方法,只有60亿参数的GPT-f就在数学“考试”中胜出。大模型的算力和数据的“千斤”,真的不如算法“四两”么? 

专家认为,用更小的参数规模达到和大模型差不多的效果的确不错,但仅拿数学“考分”来对比并不公平。

 “从论文上看,两者方法上并没有本质的不同。”孙茂松说,“GPT-f是针对特定的任务做了调整,针对数学语料做过专门训练,用验证的方法反复‘折腾’数据,让它发挥较大的效益。” 

与之相比,GPT-3是自然语言处理方面的模型,就像一个擅长写作的“文科生”,做数学题不是它的强项,它也没有专门针对这个问题的语料库进行训练。 

“这(GPT-f)算是一个算法的创新吧。”中科院自动化研究所模式识别国家重点实验室研究员王金桥对《中国科学报》说,“GPT-3相当于一个通用模型,有比较开放的数据集,里面数据杂乱,什么都有。现在GPT-f虽然只用8.5K的数据集和60亿参数,但它的数据质量特别高,而且针对于小学数学题进行训练,相当于一个专有领域的模型。” 

虽然用了更小的参数量,但GPT-f在算法和数据两个方面对做了改善。为解决逻辑关系,GPT-f加了一个验证模块,但同时也带来了新的问题。

 “现在它仍然缺乏可解释性。”王金桥说,“即使我知道它验证的答案是正确的,但不知道验证的中间步骤对错,不知道它是怎么推理出来的。” 

OpenAI在论文中所展现的10个数学实例也表明,使用验证方法比单纯扩大参数表现得更加智能,但缺点是并不稳定。 

专家认为,任何一项技术的发展,都要经历从兴起、成熟再到落地的过程。从发展规律来看,大模型现在刚刚兴起,大家正在围绕模型体量及模型体量带来的推动效应开展探索。从目前发展阶段来说,这种拥有巨量数据和更强算力的大模型表现“更突出,贡献还是会更大一些”。 

“大模型可能是人工智能发展的一个突破口,但参数量并非通向人工智能的唯一途径。”清华大学教授、智源研究院学术副院长唐杰告诉《中国科学报》,“OpenAI 60亿参数的GPT-f表现出众,也说明算法、算力或数据任何一方面都有可能在未来发展中,在特定条件下取得优势。”

不可能精通所有领域    

在人工智能技术解决数学问题方面,我国也有类似的研究,但国内多是用传统的小模型、并针对具体问题进行研究。研究者要先知道问题是什么,其关键的逻辑关系是什么,然后针对这类题设计方法,“分而治之”。 

我国相当于一类题型用一种方法解决,而GPT-f的强大之处在于它能用一些中间标签进行验证推理,并根据中间结果总结出一套规律,应用于所有的数学题。

 “从GPT-f的表现可以看出,高质量的数据资源非常重要。”王金桥说,“数据能让人工智能‘见多识广’。” 

就像人类想取得好成绩需要“刷题”一样,人工智能也需要见识各种的“题型”(数据),然后从中总结规律和学习推理关系。

 “对于提升人工智能效果来说,首先是数据规模要大、质量要高。”王金桥说,“其次,还要有大的参数规模,这样能避免训练出一个‘死记硬背’的数学模型;第三,我们要利于计算中心的算力,发展专用和通用两类大模型。” 

王金桥解释说,从利于实际应用的角度出发,目前应针对某一专门领域或场景来设计模型,每个模型解决一个或一类任务。

 “即使像人类这样,有非常厉害的大脑,并最终拿到博士学位,也只能是某个小领域的专家,不可能在所有领域都行。”王金桥说,“‘学得越好、领域越小’,大模型也是这样,因此要分两个层次发展,一是针对某一行业、某一领域的知识、数据形成专用大模型;二是发展通用普适性的超级大模型。” 

人类在掌握某项技能时,有个“1万小时”定律,要成为某领域的专家,至少要学习和练习1万小时。同样,人工智能模型也需要针对某一领域的知识、数据进行专门训练,并结合大的算力取得优异的表现。

 王金桥认为,在发展人工智能时,我们应充分利于国产化的算力,如科院自动化所面向图像、文本和语音三模态的“紫东太初”,智源人工智能研究院的“智源悟道”,鹏城实验室的“盘古”等,并结合算法和数据方面的进步,推动人工智能的发展。

相关论文信息:

https://arxiv.org/pdf/2110.14168.pdf

数据集地址:

https://github.com/openai/grade-school-math