上海交通大学计算机科学与工程系教授、先进计算机体系结构实验室主任梁晓峣:大模型下算力需求爆发,算力芯片如何寻求突破? | 「云上海曙 智造甬城」演讲精选
4月26日,由中共宁波市海曙区委、宁波市海曙区人民政府主办,海曙区委人才办、海曙区科协、阿里云承办的「云上海曙智造甬城」2023年海曙区创新创业大会·云上智能大会顺利举办。
大会以提升海曙区域产业升级和科技创新水平为目标,通过“创新、创意、创质”三创驱动,聚焦云计算、智能制造、人工智能新兴业态,传递前沿科技趋势与产业突围新风向。
AI大模型催生了无数场景,海量数据的传送与处理,还有实时信息的交互和沉浸式体验的提升,都需要以通信技术和计算能力持续提升作为基础,算力网络成为支撑AI大模型的重要基石。“要想实现元宇宙,我们需要将现有的算力提高100倍以上,那将是一个类脑智能的时代。”在算力需求极速爆发的背景下,中国芯片该如何抓住这次机遇,实现突破。围绕这个议题,上海交通大学计算机科学与工程系教授、先进计算机体系结构实验室主任梁晓峣带来了《大模型下算力需求爆发,算力芯片如何寻求突破?》主题演讲。
演讲实录分享:
今天给大家带来的主题是关于青花瓷,不是一首歌,是指上海交通大学打造的开源通用智能处理器这样一个平台,还是从我们现在最火的大模型开始说起,当前几乎所有论坛上只要和人工智能有关的都是围绕着人工智能大模型展开的,从GPT3到GPT4,我们经历了很革命性地发展,无论是从参数量,还是从网络支持的能力,已经到了临界点。
我们的机器可以拥有像人一样的智能,包括像这些考试,人类的平均分对比机器考下来很多时候已经超越了人类,但是做这些事情的代价是什么?我们的网络变得越来越庞大,GPT3是1000亿的参数组成的,到了GPT4,虽然没有公开地发表过,但是行业预估可能要达到了几千亿,甚至要到万亿的级别。这是行业的发展。
所有这些现代人工智能的网络,它的基础就是算力,算力是由算力芯片承载的,实际上现代人类的发展历史就是算力发展的进化史,最早期的时候有了晶体管,可以用晶体管制造人类历史上最早期的计算机。
最早的计算机体积非常庞大,一个房间放不下,它的计算能力可能和计算器差不多,但是正是因为有了这样的基础,我们人类开始了波澜壮阔的算力发展,到了集成电路时代,我们把这种晶体管元件很高密度地集成到现代的硅片上,也就进入了集成电路时代。集成电路的时代有很多的发展,最早芯片行业皇冠上的明珠是CPU,英特尔、AMD这样的行业主导的中央处理器,所有的电脑都有这样的处理器,可以做很多的工作,问题是它的算力不够强大。为了解决这个问题,现在当红炸子鸡就是GPU,领军的公司是英伟达,它的算力是CPU的几十到几百倍,正是因为可以提供这么强大的算力,自然成为人工智能时代算力的基石。除了GPU之外,还有DPU,主要是做数据的传输,未来可能还有生物芯片、量子芯片还在发展当中,还没有到大规模的应用阶段。
刚才提到现在核心的芯片,算力的基座是GPU芯片,GPU芯片除了在AI上发挥很大的优势,还可以在科学计算领域上发挥巨大的优势,比如说在一个医学图形的成像上可以提速100倍,在基因分析、化学分析以及一些物理模型计算上,都可以提速几十到几百倍。最新的GPT4,如果说在我们今天的GPU上进行训练,用1000张英伟达A100 GPU卡,完成GPT4的训练需要33天,整整训练一个月才能完成一次大模型的迭代,这还是1000张这样的卡的情况下才可以做到这个地步,可见我们未来对于算力的需求有多少迫切和强烈。实际上我国在算力芯片方面没有落下,一直在追赶。我们说做一个GPU的芯片,要考虑两重因素,就是芯片做得更加专用还是更加通用,这是一个选择。如果说一个芯片更加专用,性能和功耗会比较好,但是它的可编程性和应用性就变得比较差了。实际上我们希望在可编程性和性能功耗这两个矛盾因素之间找到一个平衡,我本身是做芯片的架构,在设计方面要找到最大的平衡点,这个芯片才能真正应用。
英伟达的GPU芯片恰好是找准一个特别好的点,有强大的性能也有非常大适用性,经过20年左右的发展形成了AI的算力基座,英伟达经过了10-20年的发展逆袭成功了。早期提芯片行业是英特尔现在是英伟达,英伟达是现在全球市值最高的芯片公司,远超英特尔。为什么英伟达的GPU一步一步走到今天,因为它充分享受了摩尔定律的红利。摩尔定律的意思是芯片同样面积下的集成度每隔18个月会翻倍,意味着我们在芯片上能够集成的算力每隔18个月翻倍,我们恰好处于这个时代,实际上我们对于算力的需求已经不是每隔18个月,而是每隔几个月的需求就要翻倍,GPU恰恰享受到摩尔定律的红利。
过去每次英伟达发布新的产品,算力至少翻倍,有的时候翻3-4倍,可以满足行业对于算力的爆炸性需求,现在芯片行业实际上发生了翻天覆地的变化,这是一个革命性的、本质的变化。传统上认为芯片行业,硬件实就只需要几个巨头公司做,5-10年前讲芯片行业,大家知道英伟达、英特尔等芯片公司,围绕这些核心的芯片有一大堆的软件公司,围绕着这些核心的芯片在开发所谓的领域专用的软件、绘图软件、设计软件、办公软件等各个领域专业的软件。但是他们围绕着芯片就是这几款由巨头公司提供的芯片,这些大家都可以接受的事实,为什么是这样?因为开发一代芯片需要根据摩尔定律,每隔18个月产生一代新的芯片,芯片公司就那么几个,它的架构不会有重大的变化,所以软件公司围绕着这些芯片公司去迭代软件产品就非常快速,可能只要3个月到半年就可以完成一次迭代。
从用户的角度讲,买新的电脑或新的手机,两年时间更换一个就可以了,但是软件不断地有更新,旧世界就是这样做的。但是到了新时代,我们发现整个颠覆过来了,现在的人工智能时代,AI主流的软件框架就只有2-3个,但围绕这几个固定的软件框架,却有一大堆的芯片公司在做领域专用的芯片。
我们的新时代发生了巨大的变化,产生了众多的芯片公司,给我们带来的挑战是什么?
芯片还是根据摩尔定律在走的,每隔18个月迭代一次,但新生的芯片公司它要开发起自己的软件栈,能够支持复杂的世界及软件上的千变万化,能够支持这样的软件框架,每个芯片公司至少花24个月的时间。所以我们发现过去两三年很热闹,一会儿一个公司发布了一个产品说我们的芯片算力怎么怎么样,但是你发现在市场上,真正落地的能力其实很弱的。问题不是在芯片本身,问题在于他们的软件上。每个芯片公司要重复花很长时间才能把基本软件做成熟,实际上都不一定可以做成熟,要达到现有的英伟达这样的生态需要十年的时间,所以说软件是制约芯片行业新时代发展的关键因素。
怎么去破局?
在传统的CPU领域,实际上有一些机会在,就是所谓的开源开放生态,CPU这个领域有一个叫RISC-V平台,提供开放的生态和平台,可以免费获得芯片设计授权,只要加入会员,他把基础的的生态软件做好了,你可以设计自己的芯片,你就围绕它的生态去做。这里面就形成了一个正反馈,因为它是免费的,所以有很多人愿意使用这个开放生态,使用他们开放生态又会帮助生态发展的更加强大,软件就做得更加完善和成熟,这就形成了正反馈,现在有很多人围绕着开放平台做这个事情。在CPU领域,已经有曙光初现了。
我们的问题是什么?
GPU有可能仿照CPU做一个开源开放的芯片平台吗?这就是上海交通大学先进体系结构实验室团队做的事情。我们去年下半年推出了第一代开放开源通用GPU平台,这个平台我们起名是“青花瓷”,所以我说青花瓷不是一首歌,是我们的开源开放的GPU平台。平台目标不是为了自己做芯片,是为了降低软件瓶颈,打造一个开放的软件生态,为芯片公司服务,也就是说一家芯片公司只要围绕“青花瓷”开发,通过开放的架构,可以大大节省在软件上的花销,你可能花18个月做芯片,但你不需要花24个月做重复的软件,这就是我们做的事情。
我们希望通过这个平台,打造三个“一”工程:一是出版一本关于GPU的芯片设计和架构专用教材;二是打造核心课程,上海交大正在打造开放课程,大家可以免费学习关于GPU的知识,三是刚才提到的建立开源开放的GPU平台。希望形成四大支柱,行业人才支柱、知识产权支柱、产业联盟支柱、开放生态支柱。英伟达这样的公司投资超过1000亿的美金、10000人的团队、20年的时间,目前没有一个公司有这么多钱、人和时间去慢慢地超越英伟达。我们希望用免费解决钱的问题,用开源解决时间的问题,用开放解决人才的问题。我们已经出版了一本关于GPU芯片架构的教材,这是国内第一本也是目前唯一一本专业介绍GPU体系结构知识的教材,这个书出版以后大受好评,一直是京东专业类畅销书排行榜的前几位。我们这里面做了很多开源开放的工作,包括写教案,分享这些知识。青花瓷GPU平台参考了业界最先进的GPU架构设计并且引进了Tensor Core 的概念。我们的目的是兼容现有的生态,主要是CUDA的生态,这样现有的应用程序可以跑在这个开源开放平台上,使得软件开发的难度大大降低。
目前我们能够支持人工智能方面的应用,但GPU不光是人工智能,还可以做科学计算,“青花瓷”平台不光为人工智能服务,同时可以支持科学计算,这一块基因计算、生物医学等都可以用。有一些很先进的技术发布在“青花瓷”平台上,即便在国内的其他芯片里都很难找到,但我们开放平台可以免费给大家使用。开源平台具有免费、中立,公益,前沿的特性。这个平台现在已经完全开源了,大家有兴趣可以下载代码,也有介绍,全部是免费的,很多人已经在试用。
这个平台去年10月份发布后很多人有兴趣来共建,用这个平台的力量赋能行业,这就是开源开放的力量。
这个事情需要漫长的时间,需要长期投入,所以我们希望能够抱着一颗平常心坚持下去。