首页 > 学习技巧 > 干货知识 > 高文院士谈AI:规模即所需,三“大”缺一不可

高文院士谈AI:规模即所需,三“大”缺一不可

发布时间:2024-05-26 15:40:17来源: 152102

规模是做好生成式人工智能的撒手锏,大数据、大模型和大算力对于生成式人工智能缺一不可。”在近日举行的第七届数字中国峰会之中国移动人工智能生态大会上,中国工程院院士、鹏城实验室主任、北京大学博雅讲习教授高文表示。高文院士回顾了人工智能发展的三次浪潮,并对影响当下生成式人工智能发展的关键因素进行了分析。

历经三次浪潮

1956年夏天,美国达特茅斯学院举行了一场研讨会,在会上麦卡锡首提“人工智能”,标志着人工智能元年的到来。追忆历史,高文表示,从1956年开始人工智能经历了三次浪潮:以推理研究为主的第一次浪潮,持续20年左右时间;以专家系统为主的第二次浪潮,持续30年左右时间;以及从2006年开始的第三次浪潮。其中第三次浪潮又包括两大技术进展:从2009年开始的判别式人工智能,从2018年开始的生成式人工智能。

2009年,华裔科学家李飞飞和李凯教授提出imageNet(图像网络),一石激起千层浪,业界八仙过海各显神通,纷纷基于imageNet提出各自的判别式人工智能算法,直到2012年深度神经元网络出现,以绝对优势令其他算法黯然失色,将百花齐放的格局进行收敛。2015年微软研究院何凯明、孙剑等联合提出ResNet(残差网络),又将判别式人工智能带到了新高度。此后,从深度神经网络DNN到卷积神经网络CNN再到循环神经网络RNN,深度网络快速迭代,不断走向新的技术高度。

“判别式人工智能以模式识别见长,如图像分类、人脸识别、智能监测等,如今广泛应用的人脸识别正是判别式人工智能的应用。判别式人工智能与人的对象认知学习接近,可以根据学习速度、记忆规模、判别准确度判断其结果好坏。”高文分析。

大语言模型破解长语言序列难题

不过,判别式人工智能通过在神经网络中输入大量数据进行快速判别,擅长图像和矩阵识别,对于长语言序列则力不从心。在这样的形势下,大语言模型应运而生,致力于解决长语言序列问题,而生成式人工智能则是大语言模型的最主要突破。

高文表示,自2018年开始生成式人工智能快速迭代,从大语言模型LLM到ChatGPT再到Sora多模态,万变不离其宗的是底层关键技术GPT(生成式预训练模型)。GPT引入注意力机制,使得一个长串中无论相隔多远的两个相关数据都能连接在一起,并训练出关联度。“GPT的核心算法是用大量序列做大模型预训练,关键是注意力机制。由于GPT算法对业界并无差别,因此具体应用效果取决于学习速度、记忆规模、表达准确度等。”高文认为。

虽然如今ChatGPT如火如荼,但是GPT起初并没有激起太多涟漪。这是因为GPT使用起来问题较多:给出的答案要么过于简单,要么过于复杂,要么不合规,存在意识形态、文化习惯、行业差别等方面的问题。

ChatGPT的出现改变了这一现象,使得业界对于人工智能的印象和投入力度大为改观。不过从底层技术看,从GPT到ChatGPT并没有改变,其不同在于:一是ChatGPT增加了InstructionGPT指令,通过微调、对齐和抑制,使得回答更加“人模人样”;二是引入基于人类反馈的增强学习RLHF,解决合规问题和垂应用适配等。

大数据、大模型和大算力缺一不可

在中国移动人工智能生态大会上,中国移动发布了“万千百”智能基座,其中,“万”指“万”卡互联并行加速算力供给,中国移动年内将投产3个近两万卡超大规模单体智算中心和12个区域智算中心,广泛升级1500个边缘节点,为全社会提供澎湃算力。

中国移动在智算中心方面的规模投入并非个例,随着生成式人工智能的发展,全国各地多个智算中心如雨后春笋不断出现,而这背后的原因是人工智能的发展需要算力支撑。

“生成式人工智能做得好不好,规模是决性定因素。”高文一语道出其中关键。

高文表示,GPT和Sora等人工智能生成技术并没有提出理论革新,与20年前的人工智能神经网络理论本质上并无差异。生成式人工智能的突破得益于大数据、大模型和大算力,这三个“大”缺一不可。特别是算力,如今千卡是入门级规模,要想做大模型必须有万卡级。

对于规模,OpenAI等公司也有深刻见解:如果能用规模解决问题,就无需动用新的算法。不仅如此,OpenAI还提出了“假设性三公理”,已被AI领域奉为圭臬。

第一条公理,苦涩的教训。多年来人工智能的研究者们一直试着将人类已知的知识构建到他们的智能体中,但是屡战屡败。成功的极少数案例都是使用规模计算,通过搜索和机器学习完成的。大规模、大算力和大数据是通用人工智能的必要条件。

第二条公理,规模即所需。一旦选择了良好且通用的数据标注、算法,就能够找到一套通用的规律,数据越多,模型越大,效果就越好,而且这个规律在训练之前就可以预知效果。大规模是通用人工智能AGI的充分条件,大就是好。

第三条公理,涌现需规模。随着规模的扩大、数据的增加,大模型一定会涌现出前所未有的能力,这个能力可以被所有人看到。

最后,高文总结表示,判别式人工智能方兴未艾,生成式人工智能如火如荼,关于下一波浪潮业界也有很多预测,如无人驾驶、具身智能、人形机器等,但总体而言仍不得而知。未来充满想象,值得我们期待,也需要业界有所作为。高文特别提到,中国的人工智能需要自己的大模型底座,只有这样才能实现以中文语料和中国历史为基础的文明传承。

干货知识更多>>

脑子一热!“黑蚁资本APP”被骗该如何自救!请远离騙局 进来看!“悦拜APP”亏钱被骗,收钱不办事乱承诺收益,已及时止损! 是做什么的?《华立科技》系统违规不给出金!被骗了生活好迷茫 是不是正规公司?《诚天国际》被骗的局亏损不能出金彻底骗没了才醒悟! 真的假的?《PHOAPP》软件平台操作失败别再执迷不悟!! 行差踏错!“海航资本”受骗亏损无法出金!曝光真相原来如此! 是坑人的吗?《同城佳缘》被骗信用分不足!不能提现被骗有黑幕!! 法律效应!“纪源资本”受骗亏损无法出金!曝光真相原来如此!,操作猛如虎! 有人约到吗?《暴风科技》被骗不能提款提现真相揭秘不要上当!!! 事发湖南!《蜜莱坞网络科技》被骗都是自己贪!不正规平台背后真相震惊!!! 难有收成!“快风APP”不是真的!被骗不靠谱不可信真相震惊 金星助推!“喜鹊传媒app”被骗信用分不足无法出金,通报! 兼职怎么样?《栩烁文化传媒》被骗真相大曝光!别再执迷不悟! 层层套路!“优为文化传媒”被骗信用分不足!不能提现被骗有黑幕!!,超绝变脸! 是做什么的?《音艺APP》是騙局吗?无法提现,揭开背后被骗真相震惊!! 数据竞抢!“蓝天联盟”不可信!男子受骗操作错误,其中真相揭开,不能相信! 是真实的吗?《壹号娱乐》被骗不能出金,平台套路揭秘 骗人局!《喜鹊传媒app》不靠谱不可信!网约受骗不能提现真相!! 信誉分不足!“玲玲铺”盈利不让提现被骗细节!大家不要上当了,包赔协议! 覆盖数据!“前海数据”不可信!男子受骗操作错误,其中真相揭开,派发数据单! 还能找回吗?《三旬文化》数据修复不能提现!被骗真相揭露,别被洗脑! 做数据单!《诺华资本》不合法!被骗事件道出后让人愤怒!! 坐不住了!“YUNMEI”怎么一步步落入陷阱被骗,避雷! 闪星助力!“优为文化传媒”被骗都是自己贪!不正规平台背后真相震惊!!!,百毒不侵! 超绝变脸!“JMTOA”被骗无法出金真相曝光!全是套路 对接数据!《快风APP》交友app被骗的钱能退回来吗 黑平台!“无限触达文化传媒”不可信!假装投票其实是被骗不停投入导致无言的结局!! 同城佳缘!《艺人网文化传媒》不能提款!不能提现被骗有黑幕 不给机会!《夜都APP》被骗事件,被骗了怎么追回 是不是正规公司?《快风APP》被骗不可信不靠谱 背后真相令人震惊