昆仑芯科技副总裁孙孝思:AI大模型的突破与创新需要算力基础设施

Release time:2023-03-09
author:Ameya360
source:网络
reading:2067

  2022年是整个人工智能芯片行业充满挑战的一年,从业者们都感受到丝丝寒意。因为2022年不仅处于疫情的波动期中,国际形势还对整个人工智能产业带来了限制。然而进入2023年后,CHATGPT带来了一点暖意。CHATGPT可以说是迄今为止增长最快的消费应用程序,它不是一触即发的,而是基于其前三代,不断迭代产生的,直到今天的爆发。

  为什么如今有更多的人关注它,很多演讲人也不断提及它?因为CHATGPT带来了质的飞跃,超越了人类平均基准线。

昆仑芯科技副总裁孙孝思:AI大模型的突破与创新需要算力基础设施

  来源:GARTNER2022年人工智能技术成熟度曲线

  GARTNER在2022年发布了一个人工智能技术成熟度曲线,生成式人工智能处于技术萌芽和期望的膨胀期,也就是说,技术从最初我们在人工智能的理解上,开始慢慢向发展阶段过渡,这对于人工智能产业中,无论是做芯片、框架,还是做算法的人来说,都是一个极大的利好。

  01

  CHATGPT背后:

  算法、数据、算力三要素共振

  CHATGPT背后是什么?今天在场的郑纬民院士以及其他很多演讲者此前都有提到,根源在于算法、数据、算力三个要素之间的共振。

  算力方面,现在的CHATGPT是基于GPT3.5的大模型,在训练中使用了微软专门建设的AI计算系统,由1万个业界主流GPU组成的高性能网络集群,总算力消耗约3640 PF-DAYS。

  数据方面,GPT-2的数据量是40G,GPT3的数据量达到了45TB,这是一个大规模的数据量的跃升。

  算法方面,如前所述,它不是一蹴而就的,而是经过了几次迭代。

  这几年的数据、算法、算力方面都有非常大的变化。中国在数据方面非常有优势,我们有场景、有大量的数据。在算法方面,实现了跨模态的融合,包括语音、图文、视频等很多方向。算力供给方面,这几年全国各地都在推进算力建设,我们相信未来国内的应用会有很大的变化和增长。

  02

  AI大模型应用突破与技术创新:

  目前,国内有很多关于CHATGPT的研究,除了清华大学的“八卦炉”,还有阿里、腾讯的大模型,也包括百度。百度即将在3月16日发布的文心一言,背后其实也是大参数、大算力、大数据量。我们可以意识到,未来的应用突破和技术创新需要算力的基础设施。

  也许有人会问,下一个CHATGPT到底是什么?现在火爆的聊天、语音生成属于CHATGPT的范畴,但是未来会有很多的衍生物,例如文本生成、视频生成、音频生成、虚拟人生成方面。

  我们认为,未来会有几个依托于算力的大场景,其中一大场景就是自动驾驶。自动驾驶场景中,模型感知和场景库的仿真训练需要上千P的算力。目前,我们跟新能源头部车企有很多紧密联动,我们发现自动驾驶的发展需要算力来提供技术的突破和跃升。生物医药也对算力有很强的需求,我们也看到了人工智能发挥的作用,例如ALPHAFOLD已预测出全球几乎所有已知蛋白质结构。

  可能有很多算力基础设施商都在思考,建了那么多数据中心、算力中心,到底应用在哪些地方?我们回顾一下,北京最早的京藏高速,我们叫G6,建设初期一辆车都没有,但今天却是北京堵车最严重的一条高速公路。还有4G网络,最早国家在建设4G网络的时候,大家都认为3G网络已经足够用了,为什么要上4G?为什么要投入那么大的成本?但今天看来,也有人觉得4G网络卡。所以我们要重新理解算力,它其实是信息基础设施。

  算力网络的布局会很大程度激发人工智能的应用和技术创新。

  目前,算力成本普遍偏高,有很多中小企业的创新在一定程度上受到了成本的影响。例如,复旦大学做MOSS大模型的时候,也会考虑到学校、科研机构是否能够承担起大模型的训练。

  从政府、国家、行业的角度看,我们怎么能够实现算力的普惠?我相信2023年之后,在算力建设过程当中,除了我们这些企业,各方都将更多参与进来,这样才能够真正实现普惠,大大降低企业使用算力的成本。

  03

  场景、数据驱动下人工智能芯片的挑战

  算力对于场景的创新很重要。但是作为一个人工智能芯片的企业,我们也充分认识到,在市场需求打开的情况下,整个人工智能芯片也面临巨大挑战。

昆仑芯科技副总裁孙孝思:AI大模型的突破与创新需要算力基础设施

  资料来源:《AI算力的阿喀琉斯之踵:内存墙》

  上图中,蓝线上是视频、自然语言处理和语音模型,其模型运算量平均每两年翻15倍;红线上TRANSFORMER的这种神经网络大模型,其模型运算量平均每两年会翻750倍;而灰线则标志摩尔定律下内存硬件大小的增长,平均每两年翻2倍。

  因此,可以由此想到两点:第一,未来摩尔定律会面临失效的风险;第二,要考虑内存墙的存在。对于整个芯片行业的发展来说,如何在未来的演进中找到突破口,其实CHIPLET是一个方向。可见,先进封装技术对于AI芯片行业将是一个重要的助推器。这几年,昆仑芯科技也在这方面做了很多基础研发。

  人工智能芯片离不开工程实现,为什么这么说?因为它毕竟是一个产品,想要在行业跟场景紧密结合,必须解决三个问题:通用性、易用性和性价比。

  企业、高校可以在基础科研上做很多的探索,人工智能芯片企业同时必须要考虑到它的应用、商业化落地等问题。如何去解决通用性、易用性和性价比的问题,是人工智能芯片厂商共同面临的挑战。

  芯片不是一个标品。在硬件层面,我们可以达到业界主流GPU产品差不多的性能指标,但在软件层面上差距较大。从同行的角度来看,我们需要自己的软件栈去解决通用性问题,也要给开发者提供更好的软件栈,让开发者可以基于国内的人工智能芯片做开发。

  04

  结语

  昆仑芯科技前身是百度智能芯片及架构部,虽成立不久,却已有十余年的芯片研发经验。基于百度丰富的AI场景积累,昆仑芯产品实现了与场景需求、客户需求的紧密耦合。

  基于对场景的深刻理解,昆仑芯与智能产业的上下游携手,逐步构建起软硬一体化的AI芯片生态。目前,昆仑芯产品已与百度飞桨、PYTORCH、TENSORFLOW等主流框架和服务器完成适配。

  完善解决方案才能够真正赋能产业。昆仑芯两代芯片产品均已实现量产,并凭借其强大通用性、易用性和高性能,广泛部署在智慧金融、智慧交通、智慧工业等领域,不断提供更优秀、更高效的解决方案,为客户提供更好的服务。

  未来,我们希望可以和在座的同行们一起共筑合力,赋能芯片产品与应用场景更紧密结合,在人工智能产业发展中构建更加繁荣的生态系统。


("Note: The information presented in this article is gathered from the internet and is provided as a reference for educational purposes. It does not signify the endorsement or standpoint of our website. If you find any content that violates copyright or intellectual property rights, please inform us for prompt removal.")

Online messageinquiry

reading
昆仑芯超节点产品推出,大模型训推任务性能跨越式提升
  开年后,随着DeepSeek席卷千行百业,昆仑芯率先适配、业内首家单机部署满血版展示卓越性能,并在互联网、科研、金融等领域实现规模部署,一系列进展引发广泛关注。刚刚落幕的Create2025百度AI开发者大会上,昆仑芯作为底层算力核心被高频提及,三万卡集群点亮振奋人心,昆仑芯超节点也在大会上正式发布。  自ChatGPT问世,大模型参数快速增长,单卡显存无法容纳越来越大的模型参数,大模型对AI算力系统的并行通信能力提出越来越高的要求;同时开源MoE模型在多专家并行过程中也需要更高的通信效率。DeepSeek-V3/R1加速产业落地,AI算力集群对系统可扩展能力的需求变得空前迫切。  基于对大模型演进趋势及算力需求的前瞻预测,昆仑芯团队率先布局、潜心研发,面向大规模算力场景推出超节点新品,为AI算力集群性能优化和效率提升提供一套全栈解决方案。  昆仑芯超节点渲染图  1.全互联通信带宽提升8倍,训推性能跨越式提升  通过硬件架构创新,昆仑芯超节点突破传统单机8卡产品形态,超高密度设计使得单柜可容纳32/64张昆仑芯AI加速卡。单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器,实现对MoE大模型单节点训练性能5-10倍、单卡推理效率13倍的大幅提升。  2.整柜功率可支持到120kW,大幅降低PUE  在能耗和散热方面,昆仑芯积极响应节能降耗政策,采用高效的冷板式液冷方式进行系统散热,整柜功率可支持到120kW,大幅降低数据中心的PUE(Power Usage Effectiveness,数据中心消耗的所有能源与IT负载消耗的能源的比值)。不仅如此,昆仑芯超节点支持液冷系统的漏液检测,可及时针对液冷故障进行预警、告警、修复等,最大化提高整机柜系统无间断稳定运行效率。  3.机柜间IB/RoCE通信,高带宽、低延迟  当前,各级政府、众多行业和头部企业集中发力,正在加快建设一批超大规模智算中心。针对集群拓展需求,昆仑芯超节点机柜间支持IB/RoCE通信,可实现跨柜高带宽、低延迟的数据传输,支持万卡以上规模的智算集群构建。  4.自研XPU Link,兼容主流scale-up通信标准  昆仑芯自研互联通信协议XPU Link,秉承一贯的“共生共赢”发展理念,昆仑芯XPU Link兼容scale-up通信标准OISA,与上下游合作伙伴共建超节点行业生态,携手推动国产AI算力在超节点集群中的规模部署和产业应用。  颠覆式的大模型和AI应用加速推动AI步入产业落地新阶段。AI下半场,昆仑芯凭借在芯片架构、集群系统、软件生态领域的深厚积累和全栈优势,竞争实力越发凸显。  目前,昆仑芯已实现三代产品大规模部署落地,通过与数百家客户紧密合作,将AI算力输送到互联网、运营商、智算、金融、能源电力、汽车等等千行万业,惠及数以亿计的终端用户。面向未来,昆仑芯将持续深耕AI芯片技术研发和产业应用,为我国AI产业发展注入源源不断的澎湃动力。
2025-04-27 11:10 reading:173
昆仑芯P800单机8卡一体机首个通过中国信通院DeepSeek适配测试
  中国信通院开展DeepSeek大模型适配测试工作,昆仑芯P800单机8卡一体机率先通过DeepSeek-V3/R1 671B满血版适配支持性测试,精度与DeepSeek技术报告对齐,支持长上下文推理,成为首个通过中国信通院DeepSeek适配测试的产品。  为加快推动我国人工智能基础软硬件从“可用”走向“好用”,中国信通院联合人工智能关键技术和应用评测工信部重点实验室构建了人工智能软硬件基准体系AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware),成立了人工智能软硬件协同创新与适配验证中心,参与单位共计70余家,覆盖芯片、计算设备、智算集群、网络通信、开发框架、系统软件、能力平台、关键应用等产业链关键环节。通过制定科学、统一的软硬件系列标准和基准测试体系,建设覆盖国内外主要软硬件路线的测试验证平台,有力推动我国人工智能软硬件深度适配和系统协同,加快我国基础软硬件生态日益完善,进一步提升算力利用效率。  2025年2月,信通院开展DeepSeek适配测试工作,该项工作客观评估了人工智能软硬件产品在实际应用中的性能水平,推动了基于自主软硬件生态的国产模型有序部署和应用推广,获得产业界高度关注和积极参与。  这次测试依托《人工智能 基础共性 面向大模型的软硬件系统适配能力评估方法》,该方法基于工业和信息化部人工智能标准化技术委员会与中国人工智能产业发展联盟构建,包括适配支持性、在线/离线场景适配性能和产品功能三个部分。测试方法面向多种典型应用场景,综合考虑并发数、BatchSize以及上下文长度等关键要素,能够全面评价适配效果,为需求方技术选型提供有效参考。  这次测试,昆仑芯P800单机8卡一体机率先通过DeepSeek-V3/R1 671B满血版适配支持性测试,精度与DeepSeek技术报告对齐,支持长上下文推理,成为首个通过中国信通院DeepSeek适配测试的产品。
2025-04-01 10:00 reading:325
昆仑芯服务器中标招商银行算力重大项目
  近日,昆仑芯服务器中标招商银行AI芯片资源项目。基于该项目,昆仑芯P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。  昆仑芯P800基于新一代自研架构XPU-P,显存规格优于同类主流GPU20%-50%,对MoE架构更加友好,且率先支持8bit推理,全面支持MLA、多专家并行等特性。根据项目实测,昆仑芯P800对Qwen系列性能支持远超同类型国产芯片,部分多模态模型推理性能达到全行业领先水平,可快速提升多模态数据分析、客服、代码助手等场景的应用效能。P800单机8卡即可运行DeepSeek-V3/R1满血版,极致成本效率;仅需32台即可支持模型全参训练,高效完成模型持续训练和微调。  目前,昆仑芯P800已与主流通用处理器、操作系统、AI框架完成端到端适配,生态完备、灵活易用。相较行业同类产品,昆仑芯P800不仅性能卓越,且更加易于部署,显著降低大模型运行成本。  深耕AI加速领域十余年,昆仑芯团队积累了行业领先的互联网数据中心系统工程化能力。日前,昆仑芯P800万卡集群在国内率先点亮,并将于近期进一步点亮3万卡集群,为千行百业提供源源不断的稳定、高效算力动能。大模型时代,昆仑芯科技已与智能产业的上下游建立良好的合作生态,通过提供以AI芯片为基础的澎湃算力,在互联网、金融、能源、科研、交通、工业、教育等关系国计民生的众多领域广泛部署应用,加速智能化转型,创造了巨大的产业和社会价值。  招商银行是行业内领先的股份制商业银行,持续大力推动“科技引领创新”。昆仑芯服务器中标招商银行算力重大项目,将进一步加速各方在科技金融方面汇聚优势力量,结合招行的具体场景需求,推动大模型在内的相关合作,充分发挥大模型在业务中的实际效用,为打造金融行业“新质生产力”添砖加瓦。
2025-03-28 10:49 reading:414
昆仑芯P800×DeepSeekV3/R1,国产AI芯片首发
  • Week of hot material
  • Material in short supply seckilling
model brand Quote
MC33074DR2G onsemi
TL431ACLPR Texas Instruments
BD71847AMWV-E2 ROHM Semiconductor
RB751G-40T2R ROHM Semiconductor
CDZVT2R20B ROHM Semiconductor
model brand To snap up
BU33JA2MNVX-CTL ROHM Semiconductor
BP3621 ROHM Semiconductor
TPS63050YFFR Texas Instruments
STM32F429IGT6 STMicroelectronics
ESR03EZPJ151 ROHM Semiconductor
IPZ40N04S5L4R8ATMA1 Infineon Technologies
Hot labels
ROHM
IC
Averlogic
Intel
Samsung
IoT
AI
Sensor
Chip
About us

Qr code of ameya360 official account

Identify TWO-DIMENSIONAL code, you can pay attention to

AMEYA360 weixin Service Account AMEYA360 weixin Service Account
AMEYA360 mall (www.ameya360.com) was launched in 2011. Now there are more than 3,500 high-quality suppliers, including 6 million product model data, and more than 1 million component stocks for purchase. Products cover MCU+ memory + power chip +IGBT+MOS tube + op amp + RF Bluetooth + sensor + resistor capacitance inductor + connector and other fields. main business of platform covers spot sales of electronic components, BOM distribution and product supporting materials, providing one-stop purchasing and sales services for our customers.

Please enter the verification code in the image below:

verification code