2024年诺贝尔奖开奖,获奖名单惊起哇声一片,三大科学奖中有两项授予了与AI相关的科学研究。
“它不只是物理、化学,也不只是Science for AI,而是说AI作为单独的学科开始被科学界认可的一个重要的里程碑,”在2024浦江AI学术年会上,上海人工智能实验室领军科学家欧阳万里教授在采访中表示,“未来,必然会有一大批用好AI去解决科学问题的人出现,这个趋势在我们看来是会持续增多的。”
AI和Science的关系,应该是AI plus Science
在12月13日下午举行的2024浦江AI学术年会-“科学智能的边界”专题论坛上,与会专家学者们对“AI for Science”的作用凝练出了共识性观点:AI和Science的关系,应该是AI plus Science,因为AI和Science是双向的,有AI4S,同时也有S4AI;不能高估AI4S中AI在短期内的作用,但是也不要低估AI在长期的作用,AI4S任重而道远。
Nature所作的一项统计显示,有78%的科学家还没有将ChatGPT等AI工具纳入日常研究中来。
但从某种意义上来说,AI for Science这一新的研究范式其实早就帮科学家们搭好了利用AI能力的桥梁。
欧阳万里主要负责AI for Science(科学智能)方向的研究,领衔了气象预报大模型“风乌”、种业大模型“丰登”等多项成果研发。
想象一下,一个传统的飞机翼型设计需要以“周”为单位,而在AI的辅助下,同样的设计可以在一分钟内生成数十个方案供选择;解读一张光谱图曾需要专家深厚的知识和数小时的分析,现在通过AI模型,只需几秒钟即可得到准确答案。
站在技术变革的前沿,欧阳万里和团队一起不断探索AI与科学的交汇点,推动AI在工业、科研中的深度应用。“人工智能一方面是实验室在这些探索方面的一些初探,我们也希望未来在国计民生中利用我们的通用大模型多模态的一些技术,包括具身智能技术等,能够去赋能更多跟国计民生相关的一些产业领域。”
从“语料困局”到科学新引擎:AI如何破题?
上海人工智能实验室举办“浦江AI学术年会”的初衷,是希望以年会为载体,推动“以问题为导向”的学术讨论深入开展,通过高质量问题激发更多创新灵感,“互相出好题、互相协同”,在更高层面实现产业合作、协同创新。
从年头到年尾“高质量语料短缺”始终是讨论人工智能大模型时的热点议题。
大模型的“语料”,广义上理解就是人们常说的“数据”。AI for Science面临的一个核心挑战是数据稀缺性。欧阳万里以蛋白质折叠为例,AlphaFold的成功,依赖于数万级的真实数据。如果数据能扩展到百万级,我们会期待它的成功不只是如此。
在欧阳万里看来,在AI for Science的未来中,数据质量和技术突破将是两大关键。他认为,生成数据虽然有助于补充真实数据,但其提升的效果有一定限度。如何以更低成本获取更高质量的数据,仍是未来需要突破的方向。
挑战纷繁复杂,但并非无解。尤其针对“语料”这一大模型领域日渐“老生常谈”的问题,怎么去快速积累数据?“我们可以看到有很多科学大设施其实是朝着这个目标来做,但是我们需要承认的是,科学数据的积累更加困难。数据怎么在科学家之间进行共享的机制,也是需要探索的一条路。”
“随着数字化的进一步深化,我们在各行各业积累的数据变得越来越多,期待人工智能会作为其中的一个关键的新质生产力,能够成为中国未来的科技进步和发展非常重要的推进器之一。”
通专融合,“像高中知识遇上大学课程”
对于AI领域而言,通用大模型和垂类大模型的关系一直是一个热门话题。在欧阳万里看来,“两者不存在这个矛盾,但是确实它们存在交汇点。”
欧阳万里指出,通用模型是技术发展的基础,而垂类模型则可以在此基础上进一步深化。“通用大模型的一些基础的技术会为垂类的大模型提供很多基本的东西,包括我们可以利用通用大模型的基础去调用垂类模型,或者在其基础上进行更深入的学习和优化。”
在他看来,通用模型像是为我们铺好路的高中教育,而垂类模型则是大学的专业课程,帮助我们解决那些需要深入探索的复杂问题。“他们之间是能够互补的,我们大学的知识慢慢的会融入到高中的教学中来。”
目前,专业模型和工具主要通过调用的方式进行使用。是否存在一条更好的将通用模型与专业模型、专业方法相融合并互相促进的路?“通专融合这条路非常值得去探索,从而让一个具有基本能力的模型和一个能够更高提升、打穿产业能力的专业模型进行配合,真的去把这个事情做到超过应用红线的能力。”
“未来,我们希望让通用大模型和专业垂类模型真正实现融合,这也是实验室正在探索的技术路线。”