行业事件
AI芯片十年路线图:英伟达和谷歌等联手撰文
来源:半导体行业观察
人工智能 (AI) 和硬件 (HW) 正以前所未有的速度发展,但它们的轨迹已密不可分。大型 AI 模型和数据密集型应用的指数级增长对更强大、更高效的硬件加速提出了更高的要求,而从 GPU、FPGA 和 TPU 到新兴的 NPU、模拟 AI 芯片、光子系统和神经形态处理器等专用计算平台的突破,正在重新定义智能系统的极限。
这种良性循环正在改变计算格局,但也暴露出一个关键的差距:尽管两者协同演进迅速,但全球研究界缺乏一个统一的、长远的战略愿景来协调 AI 和硬件的发展。今天的算法是围绕昨天的系统设计的,而明天的芯片是针对今天的工作负载优化的。这种碎片化限制了构建能够在云端、边缘和物理环境中高效学习、推理和运行的整体性、可持续和自适应 AI 系统的进程。
与此同时,人工智能的能源消耗已达到环境和经济上不可持续的水平。训练一个前沿模型所需的能源相当于数百个家庭的用电量,而人工智能数据中心的电力需求也日益堪比国家。人工智能的未来不仅取决于智能规模的扩展,还取决于效率的扩展,即实现每焦耳智能的指数级增长——每焦耳智能指的是单位能量所能提供的有效能力、洞察力或任务性能,而非无限制的计算消耗。应对这一重大挑战需要重新思考整个计算堆栈。
本愿景文件提出了一个涵盖算法、架构、系统和可持续性的人工智能与硬件协同设计与开发的十年路线图。我们阐述了围绕能效、系统级集成和跨层优化重新定义规模扩展的关键见解。我们指出了关键挑战和机遇,包括训练与推理的鸿沟、基础设施限制、异构集成以及公平获取先进硬件。
我们探讨了重要的未来发展趋势,从以内存为中心和3D集成架构到自改进系统、去中心化人工智能代理以及新兴计算范式。我们坦诚地评估了潜在的障碍和陷阱,包括研究孤立、资源不均以及过度依赖硬件优势,并提出了基于算法创新、硬件进步和软件抽象的集成解决方案。
展望未来,我们对未来十年的成功做出如下定义:人工智能训练和推理效率提升1000倍;构建节能、自优化的系统,实现云端、边缘和物理人工智能的无缝衔接;普及先进的人工智能基础设施;并将以人为本的原则融入智能系统的设计。
最后,我们为学术界、产业界、政府和更广泛的社会群体制定了具体的行动方案,呼吁开展协调一致的国家级举措,共享基础设施,培养人才,加强跨部门合作,并建立持续的公私合作伙伴关系,以确保人工智能与硬件协同设计成为一项统一的长期使命。
要实现人工智能训练和推理效率提升1000倍,需要人工智能模型和硬件架构之间的深度协同创新。大型模型的快速增长使得数据传输成为主要瓶颈,其速度超过了计算、内存和互连技术的进步。应对这一挑战需要转向内存沉浸式计算,通过计算和内存的密集三维集成来实现超高带宽和低能耗。同时,开发低复杂度但高质量的人工智能模型,包括混合模型、香农启发式模型、神经启发式模型、近似模型和概率模型,对于在不牺牲精度的前提下降低计算和内存需求至关重要。硬件感知模型还必须通过冗余减少、低秩低精度训练和高效的测试时扩展等技术来进一步适应系统约束。结合跨层优化和透明的、与硬件无关的基准测试框架,模型、编译器、运行时、库、架构和设备的紧密协同演进可以带来未来的人工智能系统,最大限度地提高每焦耳的智能,并开启可持续人工智能计算的新时代。
(2)革新设计生产力和适应性
人工智能创新的速度如今已远远超过硬件和系统设计的速度。弥合这一差距需要将人工智能融入到开发的每个阶段,构建人工智能在环设计工作流程。开放数据集和标准化基准对于电子设计自动化 (EDA) 的透明度、可复现性和进步至关重要。通过利用专门的大型和小型语言模型,实现细粒度的任务-智能体对齐,可以自动化并加速设计子任务,同时提升智能效率。结合上下文工程技术,这些进步将催生出人工智能原生设计方法,将技术、架构和算法统一到一个连贯、自适应的协同设计生态系统中。
(3)构建可靠且值得信赖的人工智能系统
随着人工智能的普及,可靠性和可信度必须通过权衡准确性、鲁棒性和效率(包括复杂性、能耗和延迟)来理解。鲁棒性必须涵盖模型和硬件,这就需要设计方法明确地管理这些权衡,并为系统行为提供保证。人工智能硬件范式应根据其在多维权衡曲面上的位置进行评估,优秀的方案应在关键指标上接近帕累托最优。实现这一点需要形式化验证、基于物理的约束和运行时监控。虽然通用生成式人工智能已经改变了许多领域,但要弥合其与硬件设计之间的差距,需要专门的语言模型和上下文工程人工智能系统来理解电路、架构和设计自动化的语义。基准测试也必须超越 MLPerf,将鲁棒性、可解释性和可持续性纳入考量。
(4)用于科学发现、机器人和自主代理的物理人工智能
人工智能创新的下一个飞跃在于将数据驱动学习与物理定律相结合。物理信息人工智能,包括基于神经算子和可微模拟器的各种方法,为建模科学和工程领域的核心多尺度现象(从材料发现到芯片设计)提供了一种原则性的方法。与此同时,物理和具身人工智能系统(例如在现实世界中运行的机器人和自主代理)对能效、实时响应和鲁棒性提出了严格的要求,因此学习、控制和硬件之间的紧密集成至关重要。尽管这些领域前景广阔,但由于缺乏统一的基准、数据集和可扩展的求解器,相关进展受到阻碍。新兴的潜在世界模型,例如联合嵌入预测架构(JEPA),旨在学习物理世界的结构化潜在表示。这些方法可能为未来人工智能系统中符号推理、物理信息先验和更高效的决策机制的集成奠定基础。
(5)解决核心瓶颈并统一人工智能与硬件演进
未来人工智能的一大前沿领域在于开发紧凑、节能的模型,使其在性能上能够与前沿模型相媲美,同时还能在边缘和嵌入式平台(包括支持物理人工智能的平台)上高效运行。要实现这一目标,需要不断创新,超越当前主流的实现方式,将注意力机制与互补架构、算法稀疏性、状态空间模型和系统级优化相结合,以提高效率、可扩展性和泛化能力。在硬件方面,下一代人工智能计算平台将基于异构的、以内存为中心的架构构建,通过可扩展的低延迟互连技术集成人工智能加速器、可编程架构和量子处理器。跨领域的重点包括人工智能与硬件的协同设计、全栈能耗优化、人工智能驱动的芯片和系统自动化以及大规模集群效率。此外,随着智能体人工智能系统能力的不断提升,人机交互(HAI)必须始终是关注的焦点,确保人类和智能体能够无缝协作、透明地沟通意图,并可靠、安全地执行复杂任务。
(6)人工智能与硬件的实践:迈向协调一致的全球影响
尽管“人工智能与硬件实践”看似侧重于产业界,但学术界在构建可持续且具有全球竞争力的AI生态系统中扮演着至关重要的补充角色。产业界在大型语言模型(LLM)和数据中心级基础设施的主流范式下快速发展;然而,这种侧重可能会限制对学术界擅长的全新方向的探索。一个具有韧性的AI生态系统依赖于严谨的学术研究和批判性评估,以确保提出的技术进步能够有效地转化为实际应用。在整个技术栈上协调一致的AI+硬件工作对于应对系统性挑战至关重要,这些挑战包括在监管和数据主权限制下将试点系统扩展到持续部署,管理前沿模型不断攀升的成本和能源需求,以及弥合开放式学术研究与目标明确的产业目标之间的差距。通过协调一致的政策、共享资源和持续合作,AI和硬件创新可以以可持续、公平且具有全球影响力的方式向前发展。
(7)构建可持续的产学研政伙伴关系
要实现这一宏伟愿景的目标,需要学术界、产业界和政府之间的深度合作。扩大诸如国家人工智能研究资源(NAIRR)等政府举措,将有助于实现计算、数据和模型的民主化获取。目前仍存在一个持续的挑战,即如何将学术界的长期探索性研究与产业界的短期产品驱动型开发相衔接。弥合这一鸿沟需要共享基础设施、开源协作以及能够将学术创造力与产业规模和重点相结合的政策框架,从而确保创新既具有基础性又具有影响力。
当今的计算基础设施仍然以计算为中心,计算和数据存储彼此分离。由此产生的“内存墙”造成了严重的性能瓶颈,因为传输数据所消耗的能量现在超过了计算数据所消耗的能量。尽管GPU、TPU 、NPU和神经形态处理器推动了人工智能的发展,但它们的架构仍然针对特定工作负载进行优化,而非适应不断演进的计算。缺乏统一的 AI+硬件协同设计理念,创新就会变得支离破碎:人工智能算法假定后端是静态的,而硬件则是为很快就会过时的模型而设计的。这种不匹配阻碍了进步,导致效率低下,并且这种低下会在整个系统堆栈中不断累积。
与此同时,软件框架和算法的进步速度远超硬件开发周期,甚至落后数年。这种不匹配使得研究人员难以将快速发展的AI范式适配到固定的硬件平台上,而芯片设计人员则必须预测尚未出现的工作负载。尽管研究界已经开始探索AI+HW协同设计。尽管如此,此类努力在人工智能和硬件领域仍远未成为主流。缺乏系统性的协同设计导致了各自为政的局面,数据传输、能耗优化和可编程性被视为彼此独立的问题,而不是一个连贯系统的组成部分。
未来发展需要重新思考“扩展”本身。该领域不应再追求蛮力计算,而应采用节能、自优化和架构自适应的系统。诸如以内存为中心的架构、密集的 3D 集成和内存计算技术等新兴方向有望降低数据传输的能耗和延迟 。类似地,AI 在环硬件设计、生成式 EDA 工具和跨层优化框架将使系统能够学习、适应并与它们所支持的算法共同进化。
在这种新范式下,衡量成功的标准不再是浮点运算次数或模型规模,而是每焦耳的智能、可信度和跨尺度的适应性。实现这一愿景需要一个协调一致的多层次路线图,将应用需求、算法创新和相关硬件技术整合到一个不断发展的生态系统中。只有通过这种彻底的整合,我们才能在确保人工智能高效、易用和造福全球的同时,维持其持续增长。
过去几年,一个充满活力的研究生态系统应运而生,为人工智能与硬件快速发展的交叉领域提供支持。诸如MLCAD、MLSys和ICLAD等专注于人工智能+硬件研究的新兴会议和社群获得了显著发展,汇聚了来自机器学习、计算机体系结构、EDA和系统等领域的研究人员。此外,包括DAC、MICRO、ISCA、ASPLOS和ISSCC等旗舰会议在内的许多知名会议也越来越多地设立了专门的专题研讨会、讲座和教程,探讨人工智能驱动的硬件设计和硬件感知型人工智能算法。这些发展反映了跨学科社群的快速扩张,并凸显了人们日益认识到,未来的突破需要人工智能算法、硬件架构和系统软件之间的紧密集成。加强和协调这一研究生态系统对于加速创新和实现人工智能+硬件协同演进的长期愿景至关重要。
2. 算法与范式(算法层)
3. 应用与社会影响(应用层)
一、硬件层:硬件技术
同样重要的是连接性和计算协同设计,包括光子和光电互连以及计算架构,这些架构能够大规模地提供超高带宽、低延迟和节能的通信。需要采用人工智能优化的系统拓扑和路由策略来匹配新兴的模型结构和数据流,从而实现CPU、GPU、FPGA、ASIC和特定领域加速器等异构组件之间的高效协调。
与此同时,量子-经典融合为混合系统开辟了新的机遇,将经典人工智能流水线与量子处理器相结合,以应对经典方法无法企及的优化、仿真和学习任务。这些进步将共同重新定义吞吐量、成本和能效的极限。实现这一愿景需要人工智能驱动的电子设计自动化成为硬件工作流程的核心组成部分,利用大型和小型语言模型来自动化设计空间探索、代码生成、验证、综合以及跨器件、架构和互连的系统级协同优化。在下面的章节中,我们将全面讨论这一抽象层,包括其关键概念、挑战、新兴趋势、潜在陷阱、未来十年的成功里程碑以及针对学术界、工业界和政府的建议行动方案。
二、算法层:算法与范式
与此同时,硬件感知的训练范式将通过低精度计算、稀疏性、模块化和内存高效执行来提高效率。诸如可微分模拟器、用于加速器的神经架构搜索以及基于强化学习的硬件调优等新兴方向,都指向能够通过反馈不断改进的自演化计算堆栈。除了优化之外,新的学习范式,包括物理信息学习和潜在世界模型(例如 JEPA ),承诺构建能够推理物理过程而非仅仅拟合数据的AI系统,从而将符号推理与持续学习相结合。下面的文章将详细探讨这一抽象层,并沿用第下文建立的结构框架。
三、应用层:应用与社会影响
到本十年末,训练一个前沿模型所消耗的能源可能相当于整个国家的能源消耗,这将引发严重的环境、经济和伦理问题。因此,硬件和算法层的创新对于这一层至关重要:硬件技术的进步使得大规模部署成为可能,而算法创新,包括硬件感知训练、领域特定模型和基于物理信息的学习,则将这些能力转化为实用高效的解决方案。
与此同时,这一应用层的需求必须反馈到其他两层。现实世界的应用对能源、延迟、鲁棒性、可解释性和成本提出了限制,这些限制反过来又推动了新的算法范式的出现,并对硬件系统提出了具体的设计目标。应对这些挑战需要的不仅仅是更多的硬件,而是更智能、目标明确的人工智能系统。针对特定领域的 AI,例如科学发现、工程设计或物理建模。
通过将物理定律、结构和因果先验直接嵌入学习中,可以显著降低计算和数据需求。许多应用还将依赖于混合边缘-云架构,其中低延迟推理在边缘进行,而大规模训练和适应在云端进行。从经济和社会角度来看,衡量成功的标准必须从原始吞吐量转向每焦耳的智能。这种转变将重新定义我们评估创新的方式,并使技术进步与全球可持续发展目标保持一致。
例如,优化端到端能源利用需要统一的抽象概念,将模型结构与芯片布局、运行时调度乃至散热策略联系起来。同样,可靠性和可信度必须通过形式化验证、基于物理原理的弹性设计和安全计算等方式构建到硬件层面,而不是作为软件的后续考虑。
这一愿景也重新定义了设计效率。通过利用人工智能模型进行硬件生成、验证和仿真,从概念到原型的周期可以从数年缩短到数月甚至数周。开放数据集、模块化模拟器和标准化基准测试,例如 ITBench ,IMC-Bench 以及 CVDP 基准测试,这将进一步加速可重复性进展。
该表的创新之处在于明确地展示了材料、3D 集成、模拟和光子计算、架构、互连、系统基础设施、软件栈和算法等各层之间的紧密耦合和相互依赖关系,从而揭示了丰富的跨层优化机会,而这些机会往往被各自独立的研究工作所掩盖。通过系统地将使能技术、人工智能软硬件与其相应的影响和挑战联系起来,该表格提供了一个统一的框架,旨在指导学术界开展高影响力、跨学科研究,帮助产业界优先考虑提升性能、能源效率和可扩展性的有效协同设计策略,并向政府资助机构提供信息,明确哪些领域最需要持续、协调的投资。
在未来十年,这种分层视角将提供强大的战略价值,它阐明了如何将某一层面的突破与其他层面的创新协同开发,以克服数据传输、内存壁垒、电源供应、可编程性和可靠性等根本瓶颈,最终通过整体性的跨层协同设计,实现可持续、高效且可扩展的人工智能系统。
1、系统级限制已成为主要限制因素:供电、散热、可靠性和数据传输现在比芯片级考虑因素更为重要,因此需要在机架和整个计算集群之间进行协调的协同设计。
2、数据移动已成为主要瓶颈:跨内存层次结构和互连移动数据的能量成本现在远远超过算术运算,直接促使人们采用新的算法技术,如下文中描述的稀疏性、局部性感知模型和模块化执行。
3、连接性与计算能力同样重要:性能扩展越来越依赖于互连带宽、延迟和拓扑结构,需要连接性-计算协同设计,而不是将网络视为次要考虑因素。
4、集成密度重塑架构:密集的 3D 集成和异构封装打破了逻辑、内存和互连之间的传统界限,从而实现了在平面系统上无法实现的新算法数据流。
5、硬件必须具备适应性:固定功能的硬件无法跟上快速发展的人工智能算法;相反,硬件必须是可重新配置的、可编程的,并且在设计时要考虑到算法的演进。
6、人工智能必须帮助设计硬件:未来系统的规模和复杂性需要人工智能驱动的EDA,从而形成一个闭环反馈,人工智能系统设计出能够加速未来人工智能模型的硬件。
这些见解强调了硬件创新和算法创新是不可分割的,必须作为一个统一的系统进行共同设计。
一、主要挑战
1、内存和数据传输壁垒(表 1:内存层次结构、互连)
(2)传统的基于缓存的层次结构与 AI 访问模式不匹配,尤其是对于注意力机制和大型嵌入表而言。
(3)这些限制直接促使人们采用算法压缩、局部感知训练和模型划分策略。
(2)网络启动延迟和协议开销限制了大型分布式模型的有效利用。
(3)网络拓扑结构与人工智能数据流不匹配会降低可达到的性能。
(2)功耗和散热限制现在直接制约着人工智能的性能、可扩展性和可靠性。
(3)热变化会带来可靠性和使用寿命方面的问题。
(2)如今的设计空间涵盖了器件、材料、封装、架构、互连和软件等多个方面。手动设计流程无法有效地探索这一空间,从而导致系统性能欠佳。
虽然硬件层面临着根本性的扩展性挑战,但它也提供了一些最强大的杠杆点,可以在与下文中的算法和系统共同设计时实现变革性的收益。
1、迈向跨层、系统中心的AI硬件设计。
2、以内存为中心和内存内计算作为算法使能器。
3、面向新型数据流的三维集成与异构封装。
4、光子和光电连接:扩展性的突破。
5、连接性-计算-拓扑协同设计。
6、人工智能驱动的设计自动化:倍增器。
7、用于超高密度 3D 集成电路的热支架。
A:两者单独来看都不够。算法的突破越来越依赖于硬件能力,而硬件的提升只有在算法相应调整的情况下才能转化为实际影响。持续进步需要两者不断协同演进,硬件催生新的算法范式,而算法也积极影响硬件的设计目标。
Q2:未来人工智能硬件中,专业化和通用性能否共存?
A:是的,但只能通过分层和模块化设计来实现。专用加速器、Chiplet和模拟或光子组件必须通过可编程接口和编译器支持组合成灵活的系统。如细纹所述,算法模块化和可组合性对于使专业化具有可持续性而非脆弱性至关重要。
Q3:人工智能系统能够容忍多大的近似性和异构性?
A:比传统计算模型假设的要多。许多人工智能工作负载本质上是统计性的,可以容忍噪声、精度降低和近似计算。诸如鲁棒性感知训练、不确定性建模和自适应精度等算法技术,使系统能够在保持准确性和可靠性的同时,充分利用人工智能模型和异构硬件组件的统计特性。
Q4:硬件设计周期能否真正跟上人工智能创新的步伐?
A:传统工作流程无法实现。然而,人工智能在环硬件设计、生成式EDA和可重用芯片生态系统可以显著缩短设计周期。这种方法与下文中提到的趋势相呼应,即学习系统会持续适应变化,而不是静态定义。
Q5:硬件层面的成功应该如何衡量?
A:传统的指标,例如峰值浮点运算次数(FLOPs),已不足以衡量成功。必须从系统层面的结果来衡量成功,例如每焦耳智能、端到端延迟、可扩展性以及对不断演进的算法和应用程序的适应能力。这些指标与底层讨论的应用层目标直接相关,并强调了跨层优化的必要性。
Q6:社会和应用需求如何影响硬件优先级?
A:诸如能效、鲁棒性、实时响应性和边缘部署能力等要求必须反馈到硬件设计中。这些约束条件既影响算法选择,也影响硬件架构,从而确保创新始终与社会影响保持一致,而不是仅仅追求技术指标。
图2展示了二维图,清晰地呈现了模型规模、准确率和时间之间的两两关系。尽管这些可视化图是二维的,但其中隐含了来自第三维度的额外信息——例如,在“模型准确率与时间”图中,模型规模由圆圈的大小表示。
这些趋势表明,人工智能系统进步的定义和追求方式正在发生根本性的转变。过去,进步往往是通过优化单一主导维度(最显著的是模型规模)来驱动的,其假设是更大的模型必然会带来更高的精度。虽然这种规模驱动的阶段取得了显著的成果,但如今已接近饱和,促使人们自然而然地转向优化其他关键维度,例如效率、功耗、延迟、成本和可部署性。该领域的长期发展方向并非着眼于在这些维度之间进行权衡,而是致力于融合各种解决方案,以提升所有维度的设计质量,即通过算法、硬件和系统的协同设计,构建更小、更专业的模型,从而实现更高的精度和效率。
在这种新兴范式中,智能效率将成为核心指标,讨论的焦点将从单个模型转向完整的系统和智能体生态系统,其中合适的模型会动态地与合适的任务相匹配。大型模型对于复杂的推理仍然不可或缺。随着人工智能与物理世界的交互日益频繁,规模较小的领域优化模型将主导集中式和资源受限的工作负载,尤其是在知识合成和物理领域,小型化人工智能将占据主导地位
展望2035年,物理人工智能预计将占据现实世界推理的绝大部分,而高效的小型模型将为此提供主要支持。这一前景强调了整体设计人工智能系统的必要性,并将每焦耳、每美元和每秒的智能作为首要目标。基于这些趋势,我们重点介绍以下关键技术方向。
一、近期使能技术发展趋势(2-5年):
1、具有原生量化和稀疏性支持的领域特定 AI 加速器(例如,张量核心、NPU),通过使硬件执行与现代 AI 工作负载的结构、精度和稀疏性保持一致,从而大幅提高每瓦性能。
2、异构计算节点结合了 CPU、GPU 和 NPU,使得 AI 流水线的不同组件(控制逻辑、密集计算、稀疏执行和 I/O)能够映射到最合适的硬件,从而提高利用率并减少系统级效率低下。
3、高带宽内存 (HBM) 集成,具有更宽的接口和更紧密的计算耦合,解决了内存带宽和数据移动日益成为训练和推理的主要瓶颈问题。
4、3D封装和基于芯片的架构,能够实现计算、内存和专用加速器的可扩展组合,同时与单片设计相比,还能提高良率、灵活性和上市时间。
5、硬件感知编译器、自动调优器和优化的运算符库对于将架构进步转化为真正的、持续的效率提升以及缩小峰值能力与实际利用率之间的差距至关重要。
6、通过对 API、中间表示、模型格式、运算符和内核库以及安全性、隐私性和溯源规范进行标准化,减少生态系统碎片化,实现异构 AI 系统的可移植性、互操作性和更快的采用。
7、边缘和设备端 AI 功能以小型、高效的模型为中心,支持低延迟、保护隐私和节能的推理,为大规模部署与物理世界交互的 AI 系统奠定了基础。
8、混合和统一内存层次结构,将快速 DRAM 与较慢的 NVRAM 或闪存相结合,并在 CPU、GPU 和加速器之间实现统一内存,以更好地匹配新兴 AI 工作负载的分层访问模式和持久状态要求。
1、通过混合量子-经典系统实现量子加速人工智能,其中量子处理器与经典人工智能管道互补,用于优化、采样和模拟任务,这些任务使用传统方法难以扩展。
2、芯片内部和芯片之间的光子和光学互连,可显著提高带宽密度和能源效率,使大规模人工智能系统能够突破电互连的限制。
3、光子加速器和模拟-光学混合计算,为专门的 AI 工作负载中的线性代数和信号处理提供新的节能原语。
4、更广泛地采用内存计算和模拟计算,通过将计算与存储放在一起,从根本上减少数据移动,同时依靠算法的鲁棒性和容错学习来管理噪声和变化。
5、计算、内存和逻辑的密集 3D 异构集成,打破了传统的架构边界,实现了新的数据流、更紧密的耦合和更高的系统级效率——这些能力对于支持未来物理人工智能系统中许多新兴的应用和工作负载至关重要。
6、如果能够大规模制造,超越传统 CMOS 的新材料和晶体管技术将克服功率、速度和集成密度方面的根本限制。
7、具有自适应一致性和编排能力的超可扩展分布式人工智能系统,能够动态管理跨云、边缘和设备层的计算、内存和通信,支持大量智能代理的协调运行。
• 高密度3D集成中的良率和可靠性问题。
• 软件生态系统碎片化,限制了可移植性。
• 过度专业化会降低通用性和可重用性。
• 在采用先进技术节点制造的大规模人工智能系统中,静默数据损坏 (SDC)(包括测试逃逸和集群级潜在错误)对可靠计算构成日益严重的威胁,尤其是在激进的电压缩放和异构集成的情况下。
• 使用嵌入式学习代理的自适应校准。
• 第 4 节中与算法抽象相一致的模块化硬件和软件接口。
• 社区驱动的标准和开放基准。
• 跨层可靠性监控、错误检测和纠正机制、机群规模遥测分析以及硬件-软件协同设计方法,
成功还意味着硬件平台可以通过软件和编译快速重新专门化,或者进行结构重新配置,从而无需重新设计芯片即可部署新的 AI 模型、代理和物理世界工作负载,从而缩小硬件生命周期与 AI 创新速度之间长期存在的差距。
针对学术界、产业界、政府和社区的建议行动项目
一、学术界
• 开发反映跨层交互的开放式测试平台和基准测试。
• 培养学生熟练掌握硬件和人工智能领域的各项技能。
• 共享竞争前的基础设施和标准。
• 大规模部署人工智能驱动的设计工作流程。
• 支持国家共享基础设施和开放平台。
• 鼓励跨部门合作。
• 鼓励可复现性、开放性和互操作性。
• 培养一种整体性、跨层次的创新文化。
从历史上看,算法创新带来的效率提升是突飞猛进的,其效果足以媲美甚至超越单纯的硬件扩展。过去的转型——例如从循环架构到基于注意力机制和状态空间模型的演进——表明,模型结构、训练动态和表示方式的根本性变革能够释放此前无法企及的可扩展性和效率。展望未来,模块化架构、长期记忆系统、稀疏感知学习、因果和物理信息表示以及任务的智能体分解等领域的进步有望带来类似的突破。这些算法的变革能够显著降低计算量、内存流量和通信需求,从而重塑硬件设计目标,而不仅仅是适应现有目标。因此,要实现人工智能训练和推理效率提升1000倍,就需要持续投入算法研究,重新定义所需的计算类型,而不仅仅是提高现有计算的执行效率。
训练和推理对系统提出了截然不同的要求,必须将其视为不同的协同设计目标。训练工作负载优先考虑吞吐量、统计效率、峰值准确率以及长期的摊销能耗成本,而推理——尤其对于机器人、自动驾驶汽车和工业控制等物理人工智能系统而言——则需要在严格的功率预算下实现毫秒级延迟、确定性响应和极高的能效。对于在物理世界中持续运行的实体系统而言,能效直接影响运行寿命(例如,每次充电后的自主运行时间)、安全裕度和热可靠性。
现有的已部署系统,例如自动驾驶平台,已经证明了在严格的延迟和功耗限制下进行大规模实际推理的可行性,为人工智能与硬件的协同设计提供了宝贵的经验。这些系统表明,推理效率不仅取决于算术成本,还取决于内存访问、传感器融合、控制回路集成以及最坏情况下的执行保证。展望未来,要实现物理人工智能效率的量级提升,需要针对实时推理进行专门优化的软硬件堆栈,包括可预测的内存层次结构、局部性优先执行、混合关键性调度以及平衡准确性、鲁棒性、延迟和能源效率的领域专用模型。
这些目标的实现必须依靠密切的跨学科合作,旨在缩小并最终消除快速发展的模型/算法开发与进展缓慢的硬件路线图之间创新速度的不匹配。人机交互(HAI)仍然是重中之重,尤其是在智能体时代,人类和智能体需要无缝协作,才能使人们表达意图并使机器可靠地执行复杂任务。
- 孤立的硬件开发和模型设计(表 1:算法、模型、编程抽象、系统基础设施):
- 算法暴力破解与检索优势(表 1:算法、模型、内存层次结构、编程抽象):
- 能量、存储和互连壁垒(表 1:存储层次结构、互连、3D 集成、异构封装):
- 利用率低和协同设计差距(表 1:加速器架构、系统基础设施、编译器、运行时、软件栈):
- 吉瓦级运行(表 1:互连与联网、系统基础设施、冷却与电力输送):
- 边缘约束(表 1:内存层次结构、系统基础设施、算法、模型):
Q1. 可扩展的 AI + HW 的瓶颈是什么?
A:瓶颈:能源限制、内存(容量/带宽/局部性)瓶颈、互连架构限制、基础设施利用率不足以及缺乏抽象层。解决方案:细粒度的内存内计算/近内存集成、可扩展的3D内存、更好地探索模型和硬件开发的设计空间、人工智能研究、硬件设计、编译器开发以及集群级(GW级)优化之间的早期协同设计。
Q2. 体积小 10-100 倍的模型是否也能具备同样的功能?
A:通过专注于特定应用领域,这是可以实现的。可能的途径包括:剪枝和量化;具有清晰法律和知识产权框架的特定领域蒸馏;新型架构,例如集成长期记忆的架构;效率大幅提升的异构硬件;以及混合部署策略。生态系统视角:一项由政府资助、社区参与的计划,旨在训练大型“教师”模型,并明确授权用于蒸馏;在效率、延迟或隐私至关重要的场景部署小型模型,在质量至关重要的场景部署大型模型;并实现多智能体系统,其中本地模型可以协作,并根据需要选择性地调用大型模型。
Q:我们只需要attention吗?
A:不。attention对于大型语言模型(LLM)至关重要,但并非万能;卷积神经网络、状态空间模型(SSM)和扩散模型也同样重要。重要的是使用客观的、与任务相关的指标,并避免将相关性与因果关系混淆。由于参数数量庞大,如今的LLM推理很大程度上受限于内存以及随着上下文长度增加,KV缓存流量的主导地位日益增强;滑动窗口/稀疏模式、缓存共享和长期存储器的使用有所帮助,但进一步提高运算强度仍然至关重要。硬件应该重视可重构的底层原语,并考虑提高内存利用率,而不仅仅是浮点运算次数。
Q4. 理想的硬件架构是什么?
A:异构、大规模并行、以内存为中心的系统:节能核心与 3D 堆叠式可扩展内存紧密耦合;高效支持遵循小世界网络模型的密集局部连接和稀疏全局连接;用于高带宽全球通信的光链路;用于灵活性的可重构结构;以及有针对性地使用量子计算,这些系统还必须解决部署复杂性、软件堆栈集成以及舰队级功率和资本支出权衡等问题。
Q5. 最重要的研究重点是什么?
A:人机交互(HAI)通过更清晰的抽象、明确定义的人机交互角色以及有效的人机协作,将人类意图与机器执行联系起来;利用人工智能辅助技术,跨层探索和协同设计人工智能算法、系统、芯片和设计工作流程;人工智能赋能的量子计算,包括在低温和控制功率限制下运行的量子纠错解码、编译和嵌入式人工智能;人工智能驱动的芯片和系统设计自动化,通过智能体编排,智能体动态选择模型、资源和上下文信息;以及自我改进系统,其中模型生成优化的内核,不断改进自身的基础设施,并适应特定领域的、通常是实时的数据流。
- 融合异构堆栈:未来的人工智能基础设施将采用融合异构堆栈[68]将经典的、人工智能专用的密集计算、可重构结构和量子计算机集成在一起,并在密集的局部 3D 计算内存之上建立光学全球链路。
- 计算与内存融合以克服能耗/延迟限制。诸如内存内计算/近内存计算等技术,3D堆叠,以及以内存为中心的数据流将成为主流。这些变化将需要新的编程模型、散热设计以及针对局部性和效率优化的混合模拟-数字组件。
- 小型模型与大型模型的共生:大型模型将作为提炼和推理支架的来源,而紧凑型小型语言模型(SLM)则可在边缘和嵌入式设备上高效运行。领域优化的SLM将从开放前沿教师模型中提炼而来,并由多智能体框架进行协调。
- 机制理解驱动专业化:随着可解释性研究揭示模型内部如何表示计算,这些知识将转化为新的、专门的数据结构和领域优化的内核。模型洞察将指导压缩、缓存和稀疏性策略,并将越来越多地直接编译成硬件指令,从而实现内核的自动生成和形式化验证,以确保其性能和安全性。
- 自优化流水线:能够自我调度、合成内核并与硬件协同演化的模型将会出现,从而缩短设计周期,提高持续利用率,模糊人工智能模型、软件栈和硬件平台之间的界限。人工智能生成和验证的内核将成为标准,从而实现跨不同硬件后端的性能可移植性和正确性。
- 隐私保护策略的分歧:生态系统日益分裂为严格的设备端推断和安全的云执行两类,从而推动了双轨制工具和部署策略的出现。消费者和监管机构的压力将促使边缘设备拥有更强的本地自主权,而企业则会将高价值工作负载整合到加密、可审计的云环境中。
- 去中心化和以代理为中心的AI系统将日益成为集中式云端模型的补充。未来的AI系统不再依赖于单一的推理终端,而是由大量半自主代理组成,这些代理运行于边缘设备、机器人、虚拟环境和数字孪生体等平台,并通过稀疏通信和共享抽象进行协调。这种去中心化的AI生态系统类似于元宇宙规模的系统,其中计算、学习和决策分布在具有不同能力和信任假设的异构节点上。这种范式在编排、一致性、安全性和能源效率方面带来了新的挑战,但也提供了弹性、可扩展性和本地化优势。
- “先有鸡还是先有蛋”的问题常常会阻碍技术栈(服务、系统、硬件)各个碎片化层面的进展:
- 异构性带来了巨大的软件负担和车队层面的权衡取舍,而品牌惯性(“一切都是GPU”)进一步强化了这一点:
- 蒸馏过程中的法律/知识产权和数据壁垒:
- 量子能量和控制的研究工作受到噪声、可扩展性有限和集成复杂性的阻碍:
- 能够根据人类意图可靠地执行复杂任务的系统(在实践中实现的人机交互)。
- 100倍的端到端能源效率和≥集群持续利用率达到 60%,并在千兆瓦级规模下进行了优化。
- 完全可互操作的异构系统,具有无缝协调和光纤全球链路。
- 一个成熟的领域调整型 SLM 生态系统,由从宽松许可的开放教师中提炼而来,并部署在多智能体框架中。
- 可自我改进的芯片和系统人工智能管道交付≥硅设计周期加快 3 倍,具有可预测的 PPA,以及机制明确、性能可移植、经过验证的内核。
一、学术界:
2、与压缩/系统相关的先进机制可解释性。
3、追求具有小世界互连拓扑结构的计算在内存/近内存 3D 集成硬件架构,以实现可扩展带宽。
4、建立客观、以任务为导向的指标(质量/延迟/能量/记忆强度)和均衡的课程体系,涵盖所有范式。
二、行业:
1、共同投资于以内存为中心的原型、可提炼的基础技术以及从遥测到 LLM 生成的内核和验证再到部署的统一优化工具链。
2、标准化代理互操作性和资源选择协议,例如 A2A 或 MCP(模型上下文协议),以便代理可以跨领域发现模型/资源。
3、发布利用率/效率遥测数据;采用披露标准,突出超越当前“GPU”范式的架构差异。
三、政府及标准机构:
1、发起类似DARPA的SLM挑战;资助具有明确提炼权的开放前沿模型。
2、代理访问 IP 库和 PDK(工具箱式)以进行法律培训数据;建立 IP/数据框架(开放信托、溯源)。
3、为近内存/内存内、3D 集成、异构运行时、光互连等开放式测试平台提供资金;设定节能采购目标;推广架构公开标准。
4、社区(All):
1、创建共享数据集和基准测试内核,以应对内存密集型和检索密集型工作负载,并系统地跟踪每个答案的能耗。
2、推广可重复的多指标报告(质量、延迟、能源、成本、利用率)。
3、开发智能体评估方法,使系统能够在实际约束条件下选择模型/资源/环境。
应用及社会影响
此外,跨层的AI+硬件协同设计对于将AI扩展到物理世界至关重要,因为物理系统必须在严格的实时性、安全性、能耗和可靠性约束下运行。与纯粹的数字工作负载不同,物理AI应用将感知、决策和控制与硬件执行紧密耦合,因此,跨模型、运行时和平台的端到端协同设计是先决条件,而非优化措施。
节能型人工智能将能够实现大规模气候建模、材料发现、可再生能源和智能电网的优化,以及对物理基础设施的实时监测和控制,而不会产生不可持续的碳足迹。在科学和健康领域,人工智能加速器将推动药物研发、精准医疗、先进医学成像以及通过可穿戴和嵌入式设备进行的持续健康监测。安全、可靠且注重隐私的人工智能系统还将加强网络安全、关键基础设施保护和国家安全,尤其是在自主和物理人工智能系统日益普及的情况下。通过将人工智能软件创新与硬件进步相结合,最大限度地提高每焦耳能量的智能水平,未来十年有望释放变革性的社会效益,同时确保人工智能的发展在经济上可行、环境可持续且惠及大众。
尽管“人工智能与硬件实践”看似主要关注工业界,但学术界、产业界和政府在为美国乃至全球构建更强大、更高效、更具全球竞争力的AI系统方面,都扮演着重要且互补的角色。尤其值得注意的是,产业界的诸多努力都集中在推进大型语言模型和超大规模数据中心基础设施这一主流范式上。然而,这种以工程为主导的模式往往限制了探索全新方向或重新思考现有假设的空间——而这些恰恰是学术界可以做出独特贡献的领域。与此同时,AI生态系统涵盖众多公司和技术栈的多个层面,各方之间的协调却十分有限。在此,政府可以通过鼓励合作、协调优先事项以及推动有利于国家和社会共同利益的举措,发挥建设性作用。
本部分关于人工智能和硬件实际应用的内容重点介绍了促进人工智能解决方案部署的核心问题、基础设施危机以及对长期成功至关重要的开放式学术研究的激励措施。具体而言,它着重探讨以下几个方面:
- 试点工具与实现持续、长期应用之间存在的差距所带来的挑战,以及全球数据主权和严格的监管合规性等问题,这些问题可能会减缓创新;
- 大型(前沿)人工智能模型巨大的成本和电力需求,加上美国由于基础设施不足和政策行动迟缓而即将面临的电力危机,可能会减缓变革性人工智能技术的应用;
- 能源效率和系统可扩展性是公平获取的先决条件,可以防止人工智能的发展局限于少数超大规模参与者;
- 人机协作将使人类的角色转向意图规范、协调和伦理监督,从而重塑工程实践和劳动力培训;
- 5.弥合开放式学术研究与渐进式产业发展之间的差距,尤其要解决短期产业研究与学术研究之间的权衡问题,后者往往缺乏与产业相关的必要规模和重点。
A:采用率差距依然很大:只有大约 5% 的试点人工智能技术最终转化为持续的经济回报,由于缺乏从现实世界环境中持续学习的能力、数据孤岛和数据主权制度的碎片化、运营成本高昂以及监管复杂性,导致基础设施发展放缓。
Q2. 当前最紧迫的基础设施挑战是什么?
A:迫在眉睫的电力危机。数据中心的电力需求正以数十吉瓦的速度增长,而美国的发电量和电网容量却远远落后,中国目前拥有巨大的电力优势。如果不采取行动,五年内我们将面临电力短缺,这将限制人工智能的部署。我们需要制定相关政策,确保那些运行功率低于30千瓦/机架的85%的数据中心不会被落下。
Q3:我们如何弥合学术界与产业界之间的差距?
A:建议采取三种顶级机制:(1)政府机构促进和/或协商大学与云平台之间的集体合作;(2)由行业赞助的研究项目,提供持续的资金支持,而不仅仅是一次性拨款,重点关注雄心勃勃的长期计划,例如新的节能计算范式、硬件-软件-应用程序协同设计和先进制造;(3)学术激励机制,以表彰和奖励长期、实用和系统级的贡献。
Q4:我们如何防止人工智能硬件获取方面日益加剧的不平等现象?
A:防止人工智能硬件获取方面日益加剧的不平等现象需要在模型和基础设施两方面都做出努力。在模型方面,开发更小、更高效、更专业的模型,例如具有 200 亿(或更少)个活动参数且可在边缘或配置适中的本地硬件上运行的系统,可以将可访问性扩展到超大规模数据中心之外。在硬件方面,必须通过开源工具和共享基础设施来扩大访问权限。更广泛地获取先进的半导体设计能力,例如EDA工具、制造平台和先进的PDK,以及跨行业的基准测试,可以进一步确保人工智能硬件创新能够继续为学术界、初创企业和新兴研究团体所用。
Q5. 未来十年内效率提高 1000 倍是否现实?
A:我们预测,通过模型、软件和硬件的综合进步,5 年内性能将提升 100 倍(高置信度),6-10 年内性能将提升 1000 倍(中等置信度)。实现最终 1000 倍效率提升的可行途径是:结合算法和模型优化带来的约 10 倍提升、硅利用率和技术进步带来的约 20 倍提升(备注:这代表着芯片未来十年提升20倍),以及系统级效率提升带来的约 5 倍提升。这些提升可以用每焦耳智能值来衡量。
人工智能驱动的商业模式:虽然具体的赢家仍难以预测(类似于1998年前后的互联网),但我们预计未来十年内将出现多种成功的AI驱动商业模式。如今的推荐系统已经成熟;自动驾驶汽车、机器人、智能体AI和客户服务自动化等领域也展现出巨大的发展潜力。
竞争格局:跨行业基准和共享基础设施将日益决定人工智能部署领域的国家和全球竞争力。效率提升1000倍的成果将在全球技术生态系统中广泛共享,而不仅仅局限于美国。然而,电力容量限制带来了竞争风险。由于美国电力预算有限,即使采用效率相同的技术,竞争对手也可能拥有十倍以上的推理能力。
超越地面基础设施:天基人工智能计算代表着长期人工智能基础设施设计中一个新兴且尚未充分探索的方向。业界正在积极考虑的概念设想在轨道或近地空间平台上运行,这些平台拥有丰富的太阳能,且散热遵循不同的物理约束。虽然此类系统不太可能取代地面数据中心,但它们为能源充足但延迟受限的计算、容错自主运行、抗辐射人工智能硬件以及容错学习和推理流程等领域开辟了新的研究机遇。学术研究可以在定义适用于这些环境的架构、算法和控制策略方面发挥关键作用,包括间歇执行、高度自主性和物理感知系统优化。随着人工智能基础设施规划延伸至2035年,应将天基和非地面计算视为互补平台,以检验我们对能源、可靠性和系统设计的假设。
- 基础设施瓶颈:美国发电和电网容量不足以支持数十至数百吉瓦的新数据中心需求,再加上审批流程可能需要数年时间,而全球竞争对手的行动速度更快。
- 生态系统碎片化:硬件、软件和模型之间互操作性不足,造成了生态系统的碎片化;计算机工程、系统和人工智能领域各自独立的学科框架阻碍了整体解决方案的实现。
- 激励机制错位:学术界往往缺乏解决实际问题的动力,而产业界则倾向于在现有范式内进行渐进式改进。
- 过度重视前沿模型:对 AGI 规模的前沿模型的过度关注,分散了人们对规模较小、专业化、以边缘为中心的模型的注意力,而这些模型可能带来近期价值和更广泛的应用。
- 验证挑战:如果没有实际的库、仿真工具和测量数据,就无法验证新的硬件设计方法;学术界缺乏工业规模的基础设施;仿真工具与现实世界的条件不符。
- 人才和知识缺口:美国科学和工程人才不足以支撑当前的增长;限制性的移民政策有可能失去构成领先科技公司员工主体的国际人才。
- 摩尔定律终结的风险:随着丹纳德缩放定律的终结,我们大多只能横向扩展(增加芯片数量),而不能纵向扩展(提高芯片速度),这加剧了功耗问题,并限制了传统方法带来的效率提升。
电力危机得以解决:通过多元化的能源基础设施(包括小型模块化反应堆和替代能源)实现可持续的数据中心扩展,并简化审批流程,从而在保持环境责任的同时实现快速部署。
效率提升:人工智能效率提升1000倍,这将从根本上改变人工智能流量从云端到边缘的分配格局。大量人工智能工作负载将由可部署在自动驾驶汽车、机器人和消费级设备(例如AR/VR头显)上的专用小型模型承担。
蓬勃发展的跨领域生态系统:学术界、产业界、风险投资界和政府之间建立互利共赢、富有成效的关系。多方利益相关者论坛推动共享基础设施(例如“仿真高速公路”)、先进的基准测试、开源工具和协调一致的研究,从而将短期产业需求与长期学术创新相结合。
美国竞争优势:尽管全球在效率方面取得了共同进步,但美国拥有足够的电力产能和人才储备,可以在人工智能和硬件能力以及创新速度方面与竞争对手匹敌甚至超越他们。
公平获取:开源工具、跨行业基准,以及在小型但功能强大的模型方面取得更多进展,以便更多参与者(而不仅仅是资金雄厚的实验室和超大规模企业)能够有意义且可持续地为人工智能和硬件开发的前沿做出贡献。
蓬勃发展的AI驱动型经济:一个繁荣的AI驱动型经济将依靠产学研合作和政府持续合作,而非孤立的短期发展。自动驾驶汽车、机器人、智能体AI以及其他尚未被构想的领域将涌现出多种成功的商业模式和应用,创造可与互联网在1998年后的变革相媲美,甚至最终超越其带来的广泛经济价值。
最终,成功与否将取决于能否在现实世界的环境(科学、工业和社会)中大规模部署智能系统——在这些环境中,跨层协同设计能够使人工智能系统高效、值得信赖、适应性强,并符合人类和环境的限制。
已有充分证据表明,每投入 1 美元用于研发,就能为经济带来大约 5 美元的回报。15对芯片和系统堆栈的大规模、多所大学合作研究进行战略性投资,例如开源EDA工具和通用模块化架构模拟器,可以显著放大这种影响。与此同时,应促进大学与云服务提供商之间的集体谈判,以提高访问效率;创造公众参与和知情讨论的机会;并解决能源基础设施扩张带来的环境影响,同时强调核电站和数据中心开发相关的劳动力和就业机会。此外,还应制定政策,以维持或加强美国在吸引全球科学和工程人才方面的领先地位。几十年来,美国成功地从中国、印度和欧洲等地区吸引了顶尖人才,以支持其领先科技公司的劳动力队伍,保持这一优势至关重要。
大学:与美国国家科学基金会 (NSF) 或能源部 (DOE) 等政府机构合作,共同协商云合作伙伴关系,而不是建设单独的、很快就会过时的设施;将研究重点放在开源 EDA 等生态系统赋能工具上;建立学术激励机制以促进产业合作;专注于长期颠覆性算法研究,而不是渐进式研究;促成多所大学就重大挑战开展合作,以汇集资源和跨学科专业知识。
行业:考虑赞助和指导学术研究,使其更好地与行业问题接轨,并专注于解决关键挑战。参与学术委员会,重视实践性工作;提供超越一次性资助的长期合作关系;通过实际实验验证仿真工具。公开测试和测量数据以及高级基准测试。62这有助于学术界验证其研究成果。创建跨行业基准,以更好地推动人工智能硬件和软件的研发。
社区:在学术界、产业界、风险投资公司和政府之间建立多方利益相关者论坛,以开发共享基础设施,例如“仿真高速公路”,用于探索新的架构。
应对这一挑战需要人工智能和硬件通过深度跨层协作以及对系统设计的根本性重新思考而共同演进。通过整合智能的物理、算法和社会维度,我们可以实现变革性的成果:训练和推理效率提升1000倍,设计效率显著提高,并建立一个能够推动科学和社会进步的、具有韧性和可持续性的人工智能基础设施。这项工作必须将以人为本的伦理原则——安全、透明、问责、公平和社会责任——作为首要的设计约束,而非事后考虑。实现这一目标不仅是一项技术目标,更是一项责任,即确保人工智能的发展造福人类,同时最大限度地减少对环境的影响。
要取得实质性进展,学术界、产业界和政府必须采取协调一致、目标明确的行动。学术界必须发展基础理论、抽象概念、基准测试和开源平台,以实现严谨的人工智能与硬件协同设计,同时培养精通算法和系统层面的下一代研究人员。产业界必须将这些进展转化为可扩展的、可用于生产的平台,涵盖云端、边缘和物理人工智能系统,并投资于大规模部署、可靠性工程和实际应用验证。政府必须推动长期、高风险的研究;维护共享基础设施,例如先进的计算测试平台;协调跨部门优先事项;并培养包容性的人才储备,以扩大人工智能创新领域的参与度。当这些部门协同行动时,他们就能构建出不仅更智能、更节能,而且更可靠、更安全、更具社会责任感的计算系统。
本质上,人工智能和硬件必须作为一个一体化的生态系统共同演进,在提升能力、效率和可信度的同时,始终立足于人类需求和社会背景。这不仅仅是一个技术议程,更是一次重新定义智能构建和部署方式的千载难逢的机遇。通过持续的合作、大胆的投资和以原则为导向的创新,人工智能与硬件的协同设计运动能够定义下一个计算时代——在这个时代,智能不仅更加强大,而且更加高效、可靠,并与人类的长远利益相契合。
为实现这一愿景,我们提出以下建议行动方案。
1、建立专门的 AI+HW 协同设计和协同开发计划,将硬件提升为下一代 AI 革命的一流驱动力,而不是将其视为下游优化层。
2、启动一项国家级人工智能+硬件计划(例如,由美国国家科学基金会牵头,美国国防高级研究计划局、能源部和国立卫生研究院参与),重点开展跨层研究,涵盖算法、架构、系统和应用,解决从模型到芯片的整个人工智能堆栈问题。
3、创建与 NAIRR 精神类似的共享 AI+HW 基础设施和资源计划,为学术界提供先进的计算、新兴加速器、芯片原型平台和系统级测试平台,这些对于有意义的 AI+HW 研究至关重要。
4、加强产学研合作机制,包括联合资助研究中心、联合奖学金、访问学者计划和共享试验平台,让产业界作为积极的利益相关者参与其中,而不仅仅是外部顾问。
5、向人工智能+硬件研究所或中心发出征集令,以 JUMP 等成功项目为蓝本,制定长期资助计划、明确的转化目标和强大的劳动力发展计划。
6、投资于人工智能+硬件人才队伍的培训和教育,支持跨学科课程、使用真实硬件平台进行实践培训,以及对人工智能研究人员进行系统和硬件方面的交叉培训,对硬件研究人员进行现代人工智能方法方面的交叉培训。
7、在资助的研究中,应优先考虑系统级评估指标,包括每焦耳智能、智能效率、数据传输效率、实际应用、稳健性和可部署性,而不是仅仅依赖模型准确性或硬件峰值性能。
8、要解决学术界和产业界之间日益扩大的资源获取差距,就要确保公共资助的研究人员能够公平地获得大规模计算、先进的硬件平台和真实的数据集。
9、鼓励跨机构协调(例如,美国国家科学基金会、国防高级研究计划局、美国国立卫生研究院、美国能源部),使人工智能和硬件投资与国家在科学发现、医疗保健、能源、安全和物理人工智能系统方面的优先事项保持一致,包括探索与新兴的能源部计划(如“创世纪任务”)开展战略合作。
10、将此报告及其 arXiv 版本作为动态参考,收集持续的社区意见,并指导人工智能与硬件协同设计领域的未来征集、政策方向和协调资助计划。
11、与专业协会(ACM、IEEE、USENIX、AAAI、ASME 等)合作,通过社区建设、标准制定和宣传倡导,帮助推进这些可操作的项目。
12、利用本报告,向政策制定者和立法者宣传人工智能与硬件协同设计对国家竞争力和社会影响的战略重要性。
13、与领先的行业伙伴携手合作,分享这一愿景,建立战略联盟,并开展符合共同利益的联合项目。
