昆仑芯超节点产品推出,大模型训推任务性能跨越式提升

发布时间:2025-04-27 11:10
作者:AMEYA360
来源:昆仑芯
阅读量:171

  开年后,随着DeepSeek席卷千行百业,昆仑芯率先适配、业内首家单机部署满血版展示卓越性能,并在互联网、科研、金融等领域实现规模部署,一系列进展引发广泛关注。刚刚落幕的Create2025百度AI开发者大会上,昆仑芯作为底层算力核心被高频提及,三万卡集群点亮振奋人心,昆仑芯超节点也在大会上正式发布。

  自ChatGPT问世,大模型参数快速增长,单卡显存无法容纳越来越大的模型参数,大模型对AI算力系统的并行通信能力提出越来越高的要求;同时开源MoE模型在多专家并行过程中也需要更高的通信效率。DeepSeek-V3/R1加速产业落地,AI算力集群对系统可扩展能力的需求变得空前迫切。

  基于对大模型演进趋势及算力需求的前瞻预测,昆仑芯团队率先布局、潜心研发,面向大规模算力场景推出超节点新品,为AI算力集群性能优化和效率提升提供一套全栈解决方案。

昆仑芯超节点产品推出,大模型训推任务性能跨越式提升

  昆仑芯超节点渲染图

  1.全互联通信带宽提升8倍,训推性能跨越式提升

  通过硬件架构创新,昆仑芯超节点突破传统单机8卡产品形态,超高密度设计使得单柜可容纳32/64张昆仑芯AI加速卡。单柜内卡间实现全互联通信,带宽提升高达8倍,一个机柜的算力最高可达到传统形态下8台8卡服务器,实现对MoE大模型单节点训练性能5-10倍、单卡推理效率13倍的大幅提升。

  2.整柜功率可支持到120kW,大幅降低PUE

  在能耗和散热方面,昆仑芯积极响应节能降耗政策,采用高效的冷板式液冷方式进行系统散热,整柜功率可支持到120kW,大幅降低数据中心的PUE(Power Usage Effectiveness,数据中心消耗的所有能源与IT负载消耗的能源的比值)。不仅如此,昆仑芯超节点支持液冷系统的漏液检测,可及时针对液冷故障进行预警、告警、修复等,最大化提高整机柜系统无间断稳定运行效率。

  3.机柜间IB/RoCE通信,高带宽、低延迟

  当前,各级政府、众多行业和头部企业集中发力,正在加快建设一批超大规模智算中心。针对集群拓展需求,昆仑芯超节点机柜间支持IB/RoCE通信,可实现跨柜高带宽、低延迟的数据传输,支持万卡以上规模的智算集群构建。

  4.自研XPU Link,兼容主流scale-up通信标准

  昆仑芯自研互联通信协议XPU Link,秉承一贯的“共生共赢”发展理念,昆仑芯XPU Link兼容scale-up通信标准OISA,与上下游合作伙伴共建超节点行业生态,携手推动国产AI算力在超节点集群中的规模部署和产业应用。

  颠覆式的大模型和AI应用加速推动AI步入产业落地新阶段。AI下半场,昆仑芯凭借在芯片架构、集群系统、软件生态领域的深厚积累和全栈优势,竞争实力越发凸显。

  目前,昆仑芯已实现三代产品大规模部署落地,通过与数百家客户紧密合作,将AI算力输送到互联网、运营商、智算、金融、能源电力、汽车等等千行万业,惠及数以亿计的终端用户。面向未来,昆仑芯将持续深耕AI芯片技术研发和产业应用,为我国AI产业发展注入源源不断的澎湃动力。


(备注:文章来源于网络,信息仅供参考,不代表本网站观点,如有侵权请联系删除!)

在线留言询价

相关阅读
昆仑芯P800单机8卡一体机首个通过中国信通院DeepSeek适配测试
  中国信通院开展DeepSeek大模型适配测试工作,昆仑芯P800单机8卡一体机率先通过DeepSeek-V3/R1 671B满血版适配支持性测试,精度与DeepSeek技术报告对齐,支持长上下文推理,成为首个通过中国信通院DeepSeek适配测试的产品。  为加快推动我国人工智能基础软硬件从“可用”走向“好用”,中国信通院联合人工智能关键技术和应用评测工信部重点实验室构建了人工智能软硬件基准体系AISHPerf(Performance Benchmarks of Artificial Intelligence Software and Hardware),成立了人工智能软硬件协同创新与适配验证中心,参与单位共计70余家,覆盖芯片、计算设备、智算集群、网络通信、开发框架、系统软件、能力平台、关键应用等产业链关键环节。通过制定科学、统一的软硬件系列标准和基准测试体系,建设覆盖国内外主要软硬件路线的测试验证平台,有力推动我国人工智能软硬件深度适配和系统协同,加快我国基础软硬件生态日益完善,进一步提升算力利用效率。  2025年2月,信通院开展DeepSeek适配测试工作,该项工作客观评估了人工智能软硬件产品在实际应用中的性能水平,推动了基于自主软硬件生态的国产模型有序部署和应用推广,获得产业界高度关注和积极参与。  这次测试依托《人工智能 基础共性 面向大模型的软硬件系统适配能力评估方法》,该方法基于工业和信息化部人工智能标准化技术委员会与中国人工智能产业发展联盟构建,包括适配支持性、在线/离线场景适配性能和产品功能三个部分。测试方法面向多种典型应用场景,综合考虑并发数、BatchSize以及上下文长度等关键要素,能够全面评价适配效果,为需求方技术选型提供有效参考。  这次测试,昆仑芯P800单机8卡一体机率先通过DeepSeek-V3/R1 671B满血版适配支持性测试,精度与DeepSeek技术报告对齐,支持长上下文推理,成为首个通过中国信通院DeepSeek适配测试的产品。
2025-04-01 10:00 阅读量:322
昆仑芯服务器中标招商银行算力重大项目
  近日,昆仑芯服务器中标招商银行AI芯片资源项目。基于该项目,昆仑芯P800将围绕多个核心业务场景,全面支持招商银行落地大模型应用。  昆仑芯P800基于新一代自研架构XPU-P,显存规格优于同类主流GPU20%-50%,对MoE架构更加友好,且率先支持8bit推理,全面支持MLA、多专家并行等特性。根据项目实测,昆仑芯P800对Qwen系列性能支持远超同类型国产芯片,部分多模态模型推理性能达到全行业领先水平,可快速提升多模态数据分析、客服、代码助手等场景的应用效能。P800单机8卡即可运行DeepSeek-V3/R1满血版,极致成本效率;仅需32台即可支持模型全参训练,高效完成模型持续训练和微调。  目前,昆仑芯P800已与主流通用处理器、操作系统、AI框架完成端到端适配,生态完备、灵活易用。相较行业同类产品,昆仑芯P800不仅性能卓越,且更加易于部署,显著降低大模型运行成本。  深耕AI加速领域十余年,昆仑芯团队积累了行业领先的互联网数据中心系统工程化能力。日前,昆仑芯P800万卡集群在国内率先点亮,并将于近期进一步点亮3万卡集群,为千行百业提供源源不断的稳定、高效算力动能。大模型时代,昆仑芯科技已与智能产业的上下游建立良好的合作生态,通过提供以AI芯片为基础的澎湃算力,在互联网、金融、能源、科研、交通、工业、教育等关系国计民生的众多领域广泛部署应用,加速智能化转型,创造了巨大的产业和社会价值。  招商银行是行业内领先的股份制商业银行,持续大力推动“科技引领创新”。昆仑芯服务器中标招商银行算力重大项目,将进一步加速各方在科技金融方面汇聚优势力量,结合招行的具体场景需求,推动大模型在内的相关合作,充分发挥大模型在业务中的实际效用,为打造金融行业“新质生产力”添砖加瓦。
2025-03-28 10:49 阅读量:414
昆仑芯P800×DeepSeekV3/R1,国产AI芯片首发
昆仑芯Anyinfer零代码实现昆仑芯AI加速卡模型推理
  当下,AI技术蓬勃发展,AI算法应用需求井喷。行业技术从业者在项目的不同阶段面临种种现实问题,这些问题无疑也增加了项目的复杂性和不确定性:  算法选型:  技术从业者极有可能遇到不同框架格式的算法模型;即便是同一个开源算法的实现,也可能是经过不同训练框架导出,因此模型的保存格式也会有所不同。  算法验证:  想在AI加速卡上评估算法的推理效果,就要针对不同推理框架的接口构造上百行代码的推理程序;如果效果不达预期,可能还需要更换其他框架的模型,这就需要重新构造一份不同的推理程序......  真正到了算法部署阶段,则将迎来更加严峻的挑战。  以上种种业内痛点,是否也在困扰您?看完这篇,基于昆仑芯AI加速卡的高效模型推理部署框架——昆仑芯Anyinfer,帮您一键全搞定!  一、昆仑芯Anyinfer  1. 昆仑芯Anyinfer架构图  2. 昆仑芯Anyinfer核心优势  A、强兼容性  在多个平台上支持零代码推理PaddlePaddle、PyTorch、ONNX、TensorFlow等多个主流框架格式的众多领域模型。  B、高人效  内置多款推理引擎,针对不同领域,用户无需学习特定框架编程接口,更不用编写多份推理程序,零代码验证模型在不同框架中的效果。  C、零代码  只需一行命令,即可完成模型验证评估,无需依据模型构建输入数据,也无需撰写模型转换、前后处理及推理脚本代码。  D、部署友好  支持C++与Python两套接口逻辑统一的API,用户在生产环境中部署模型更方便。  二、运行演示  1. 快速完成算法模型验证评估  一行命令,即可轻松验证模型精度、一键评估模型的推理性能等关键指标。  A、ONNX、PyTorch和TensorFlow模型在昆仑芯AI加速卡和CPU上的计算精度对比  B、PaddlePaddle模型在昆仑芯AI加速卡上的推理性能统计  2. 获取模型性能分析报告,为下一步模型优化做足准备  在初步完成算法模型的验证评估后,可利用昆仑芯Anyinfer深入研究模型中各个层面的性能,包括推理框架层面和算子执行层面等,助力进一步调优模型的推理性能。  3. 模型的基础性能调优  完成对模型的性能评估后,可以使用基础的调优方法来提高模型的推理性能。昆仑芯Anyinfer提供了一项非常便捷的功能:最佳QPS搜索。此功能将以往需要修改多个参数并多次执行的操作化繁为简,快速确定最适合项目需求的配置,提高用户体验。  4. 模型的高性能部署  完成算法模型的验证后,最关键的一步来了!昆仑芯Anyinfer可轻松应对生产环境部署这一挑战。仅需三个统一的C++接口,即可顺利将验证后的模型部署至生产环境中。  此外,昆仑芯Anyinfer还提供了方便的调试功能,例如算子的自动精度对比、模型转换等。同时,也提供了丰富的使用示例,包括多输入、多线程、多进程、多流推理等。种种行业痛点,昆仑芯Anyinfer轻松搞定。简洁而强大的解决方案,帮您把模型推理部署变得简单、高效。  目前,昆仑芯Anyinfer已在多个行业客户中投入使用,切实降低了行业客户人力成本,提高了项目交付效率,助力客户在行业竞争中取得领先优势。
2023-10-17 09:15 阅读量:2049
  • 一周热料
  • 紧缺物料秒杀
型号 品牌 询价
MC33074DR2G onsemi
BD71847AMWV-E2 ROHM Semiconductor
TL431ACLPR Texas Instruments
RB751G-40T2R ROHM Semiconductor
CDZVT2R20B ROHM Semiconductor
型号 品牌 抢购
ESR03EZPJ151 ROHM Semiconductor
TPS63050YFFR Texas Instruments
BP3621 ROHM Semiconductor
STM32F429IGT6 STMicroelectronics
IPZ40N04S5L4R8ATMA1 Infineon Technologies
BU33JA2MNVX-CTL ROHM Semiconductor
热门标签
ROHM
Aavid
Averlogic
开发板
SUSUMU
NXP
PCB
传感器
半导体
相关百科
关于我们
AMEYA360微信服务号 AMEYA360微信服务号
AMEYA360商城(www.ameya360.com)上线于2011年,现 有超过3500家优质供应商,收录600万种产品型号数据,100 多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯 片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+ 连接器等多个领域,平台主营业务涵盖电子元器件现货销售、 BOM配单及提供产品配套资料等,为广大客户提供一站式购 销服务。

请输入下方图片中的验证码:

验证码