Connect with us

GPLP

AI芯片十年路线图:英伟达和谷歌等联手撰文

行业事件

AI芯片十年路线图:英伟达和谷歌等联手撰文

来源:半导体行业观察

近日,英伟达、谷歌和美国多家大学研究人员写了一篇名为《10-Year Roadmap for AI + Hardware》的文章。在文章中,他们披露了包括芯片在内的AI硬件预期。

以下为文章正文:

人工智能 (AI) 和硬件 (HW) 正以前所未有的速度发展,但它们的轨迹已密不可分。大型 AI 模型和数据密集型应用的指数级增长对更强大、更高效的硬件加速提出了更高的要求,而从 GPU、FPGA 和 TPU 到新兴的 NPU、模拟 AI 芯片、光子系统和神经形态处理器等专用计算平台的突破,正在重新定义智能系统的极限。

这种良性循环正在改变计算格局,但也暴露出一个关键的差距:尽管两者协同演进迅速,但全球研究界缺乏一个统一的、长远的战略愿景来协调 AI 和硬件的发展。今天的算法是围绕昨天的系统设计的,而明天的芯片是针对今天的工作负载优化的。这种碎片化限制了构建能够在云端、边缘和物理环境中高效学习、推理和运行的整体性、可持续和自适应 AI 系统的进程。

与此同时,人工智能的能源消耗已达到环境和经济上不可持续的水平。训练一个前沿模型所需的能源相当于数百个家庭的用电量,而人工智能数据中心的电力需求也日益堪比国家。人工智能的未来不仅取决于智能规模的扩展,还取决于效率的扩展,即实现每焦耳智能的指数级增长——每焦耳智能指的是单位能量所能提供的有效能力、洞察力或任务性能,而非无限制的计算消耗。应对这一重大挑战需要重新思考整个计算堆栈。

本愿景文件提出了一个涵盖算法、架构、系统和可持续性的人工智能与硬件协同设计与开发的十年路线图。我们阐述了围绕能效、系统级集成和跨层优化重新定义规模扩展的关键见解。我们指出了关键挑战和机遇,包括训练与推理的鸿沟、基础设施限制、异构集成以及公平获取先进硬件。

我们探讨了重要的未来发展趋势,从以内存为中心和3D集成架构到自改进系统、去中心化人工智能代理以及新兴计算范式。我们坦诚地评估了潜在的障碍和陷阱,包括研究孤立、资源不均以及过度依赖硬件优势,并提出了基于算法创新、硬件进步和软件抽象的集成解决方案。

展望未来,我们对未来十年的成功做出如下定义:人工智能训练和推理效率提升1000倍;构建节能、自优化的系统,实现云端、边缘和物理人工智能的无缝衔接;普及先进的人工智能基础设施;并将以人为本的原则融入智能系统的设计。

最后,我们为学术界、产业界、政府和更广泛的社会群体制定了具体的行动方案,呼吁开展协调一致的国家级举措,共享基础设施,培养人才,加强跨部门合作,并建立持续的公私合作伙伴关系,以确保人工智能与硬件协同设计成为一项统一的长期使命。

文章内容总结

(1)重塑计算和人工智能基础,实现1000倍效率提升

要实现人工智能训练和推理效率提升1000倍,需要人工智能模型和硬件架构之间的深度协同创新。大型模型的快速增长使得数据传输成为主要瓶颈,其速度超过了计算、内存和互连技术的进步。应对这一挑战需要转向内存沉浸式计算,通过计算和内存的密集三维集成来实现超高带宽和低能耗。同时,开发低复杂度但高质量的人工智能模型,包括混合模型、香农启发式模型、神经启发式模型、近似模型和概率模型,对于在不牺牲精度的前提下降低计算和内存需求至关重要。硬件感知模型还必须通过冗余减少、低秩低精度训练和高效的测试时扩展等技术来进一步适应系统约束。结合跨层优化和透明的、与硬件无关的基准测试框架,模型、编译器、运行时、库、架构和设备的紧密协同演进可以带来未来的人工智能系统,最大限度地提高每焦耳的智能,并开启可持续人工智能计算的新时代。

(2)革新设计生产力和适应性

人工智能创新的速度如今已远远超过硬件和系统设计的速度。弥合这一差距需要将人工智能融入到开发的每个阶段,构建人工智能在环设计工作流程。开放数据集和标准化基准对于电子设计自动化 (EDA) 的透明度、可复现性和进步至关重要。通过利用专门的大型和小型语言模型,实现细粒度的任务-智能体对齐,可以自动化并加速设计子任务,同时提升智能效率。结合上下文工程技术,这些进步将催生出人工智能原生设计方法,将技术、架构和算法统一到一个连贯、自适应的协同设计生态系统中。

(3)构建可靠且值得信赖的人工智能系统

随着人工智能的普及,可靠性和可信度必须通过权衡准确性、鲁棒性和效率(包括复杂性、能耗和延迟)来理解。鲁棒性必须涵盖模型和硬件,这就需要设计方法明确地管理这些权衡,并为系统行为提供保证。人工智能硬件范式应根据其在多维权衡曲面上的位置进行评估,优秀的方案应在关键指标上接近帕累托最优。实现这一点需要形式化验证、基于物理的约束和运行时监控。虽然通用生成式人工智能已经改变了许多领域,但要弥合其与硬件设计之间的差距,需要专门的语言模型和上下文工程人工智能系统来理解电路、架构和设计自动化的语义。基准测试也必须超越 MLPerf,将鲁棒性、可解释性和可持续性纳入考量。

(4)用于科学发现、机器人和自主代理的物理人工智能

人工智能创新的下一个飞跃在于将数据驱动学习与物理定律相结合。物理信息人工智能,包括基于神经算子和可微模拟器的各种方法,为建模科学和工程领域的核心多尺度现象(从材料发现到芯片设计)提供了一种原则性的方法。与此同时,物理和具身人工智能系统(例如在现实世界中运行的机器人和自主代理)对能效、实时响应和鲁棒性提出了严格的要求,因此学习、控制和硬件之间的紧密集成至关重要。尽管这些领域前景广阔,但由于缺乏统一的基准、数据集和可扩展的求解器,相关进展受到阻碍。新兴的潜在世界模型,例如联合嵌入预测架构(JEPA),旨在学习物理世界的结构化潜在表示。这些方法可能为未来人工智能系统中符号推理、物理信息先验和更高效的决策机制的集成奠定基础。

(5)解决核心瓶颈并统一人工智能与硬件演进

未来人工智能的一大前沿领域在于开发紧凑、节能的模型,使其在性能上能够与前沿模型相媲美,同时还能在边缘和嵌入式平台(包括支持物理人工智能的平台)上高效运行。要实现这一目标,需要不断创新,超越当前主流的实现方式,将注意力机制与互补架构、算法稀疏性、状态空间模型和系统级优化相结合,以提高效率、可扩展性和泛化能力。在硬件方面,下一代人工智能计算平台将基于异构的、以内存为中心的架构构建,通过可扩展的低延迟互连技术集成人工智能加速器、可编程架构和量子处理器。跨领域的重点包括人工智能与硬件的协同设计、全栈能耗优化、人工智能驱动的芯片和系统自动化以及大规模集群效率。此外,随着智能体人工智能系统能力的不断提升,人机交互(HAI)必须始终是关注的焦点,确保人类和智能体能够无缝协作、透明地沟通意图,并可靠、安全地执行复杂任务。

(6)人工智能与硬件的实践:迈向协调一致的全球影响

尽管“人工智能与硬件实践”看似侧重于产业界,但学术界在构建可持续且具有全球竞争力的AI生态系统中扮演着至关重要的补充角色。产业界在大型语言模型(LLM)和数据中心级基础设施的主流范式下快速发展;然而,这种侧重可能会限制对学术界擅长的全新方向的探索。一个具有韧性的AI生态系统依赖于严谨的学术研究和批判性评估,以确保提出的技术进步能够有效地转化为实际应用。在整个技术栈上协调一致的AI+硬件工作对于应对系统性挑战至关重要,这些挑战包括在监管和数据主权限制下将试点系统扩展到持续部署,管理前沿模型不断攀升的成本和能源需求,以及弥合开放式学术研究与目标明确的产业目标之间的差距。通过协调一致的政策、共享资源和持续合作,AI和硬件创新可以以可持续、公平且具有全球影响力的方式向前发展。

(7)构建可持续的产学研政伙伴关系

要实现这一宏伟愿景的目标,需要学术界、产业界和政府之间的深度合作。扩大诸如国家人工智能研究资源(NAIRR)等政府举措,将有助于实现计算、数据和模型的民主化获取。目前仍存在一个持续的挑战,即如何将学术界的长期探索性研究与产业界的短期产品驱动型开发相衔接。弥合这一鸿沟需要共享基础设施、开源协作以及能够将学术创造力与产业规模和重点相结合的政策框架,从而确保创新既具有基础性又具有影响力。

背景与动机

人工智能已进入一个前所未有的强大时代,但也面临着严重的失衡。在更大的数据集、更深的网络和海量计算资源的推动下,人工智能模型呈指数级增长,在科学、工程和日常生活中取得了非凡的突破。然而,这种发展轨迹正变得越来越难以为继。每一代前沿模型都需要数量级更高的能源和内存带宽,单次训练运行就会消耗数百万千瓦时,并产生大量的碳排放。如今,支撑人工智能崛起的系统本身也受到现有硬件范式在物理、架构和经济方面的限制。

当今的计算基础设施仍然以计算为中心,计算和数据存储彼此分离。由此产生的“内存墙”造成了严重的性能瓶颈,因为传输数据所消耗的能量现在超过了计算数据所消耗的能量。尽管GPU、TPU 、NPU和神经形态处理器推动了人工智能的发展,但它们的架构仍然针对特定工作负载进行优化,而非适应不断演进的计算。缺乏统一的 AI+硬件协同设计理念,创新就会变得支离破碎:人工智能算法假定后端是静态的,而硬件则是为很快就会过时的模型而设计的。这种不匹配阻碍了进步,导致效率低下,并且这种低下会在整个系统堆栈中不断累积。

与此同时,软件框架和算法的进步速度远超硬件开发周期,甚至落后数年。这种不匹配使得研究人员难以将快速发展的AI范式适配到固定的硬件平台上,而芯片设计人员则必须预测尚未出现的工作负载。尽管研究界已经开始探索AI+HW协同设计。尽管如此,此类努力在人工智能和硬件领域仍远未成为主流。缺乏系统性的协同设计导致了各自为政的局面,数据传输、能耗优化和可编程性被视为彼此独立的问题,而不是一个连贯系统的组成部分。

未来发展需要重新思考“扩展”本身。该领域不应再追求蛮力计算,而应采用节能、自优化和架构自适应的系统。诸如以内存为中心的架构、密集的 3D 集成和内存计算技术等新兴方向有望降低数据传输的能耗和延迟 。类似地,AI 在环硬件设计、生成式 EDA 工具和跨层优化框架将使系统能够学习、适应并与它们所支持的算法共同进化。

在这种新范式下,衡量成功的标准不再是浮点运算次数或模型规模,而是每焦耳的智能、可信度和跨尺度的适应性。实现这一愿景需要一个协调一致的多层次路线图,将应用需求、算法创新和相关硬件技术整合到一个不断发展的生态系统中。只有通过这种彻底的整合,我们才能在确保人工智能高效、易用和造福全球的同时,维持其持续增长。

过去几年,一个充满活力的研究生态系统应运而生,为人工智能与硬件快速发展的交叉领域提供支持。诸如MLCAD、MLSys和ICLAD等专注于人工智能+硬件研究的新兴会议和社群获得了显著发展,汇聚了来自机器学习、计算机体系结构、EDA和系统等领域的研究人员。此外,包括DAC、MICRO、ISCA、ASPLOS和ISSCC等旗舰会议在内的许多知名会议也越来越多地设立了专门的专题研讨会、讲座和教程,探讨人工智能驱动的硬件设计和硬件感知型人工智能算法。这些发展反映了跨学科社群的快速扩张,并凸显了人们日益认识到,未来的突破需要人工智能算法、硬件架构和系统软件之间的紧密集成。加强和协调这一研究生态系统对于加速创新和实现人工智能+硬件协同演进的长期愿景至关重要。

激进变革的理由

人工智能的扩展不应再以计算能力的提升为核心,而应以计算能力的优化为核心。未来的人工智能系统必须具备节能意识、自我优化能力和架构自适应性。从以计算为中心向以内存和数据为中心的架构转变,对于突破长期以来限制当今系统的内存和性能瓶颈至关重要。为了实现这一转变,必须在计算堆栈的各个层面进行创新,从材料和器件到算法和应用程序。同样重要的是,这些层面必须通过人工智能与硬件的协同设计和协同演进而共同发展,从而确保效率、可扩展性和设计生产力同步提升。

AI+硬件协同演化的多层次愿景

人工智能的未来取决于对硬件与智能之间关系的深刻结构性反思。未来十年的进步并非来自孤立的突破,而是来自三个抽象层面的协同创新:

1. 硬件技术(硬件层)

2. 算法与范式(算法层)

3. 应用与社会影响(应用层)

图片
硬件技术、算法和范式,以及应用和社会影响共同构成了一个紧密耦合的动态反馈回路。在顶层,硬件技术的进步定义了人工智能系统的性能、能耗和可扩展性的边界,并决定了哪些算法技术是可行的。基于这些能力,中间层的算法和范式将硬件的限制和机遇转化为高效的学习、推理和优化方法。在底层,应用和社会需求驱动着对算法和硬件的新要求,通过激励整个技术栈的进一步创新来形成闭环。这种高度的相互依赖性要求持续的跨层协同设计,其中人工智能帮助设计硬件,硬件加速人工智能的训练和推理,两者共同演进以响应诸如生产力、可持续性、安全性以及可靠性等社会优先事项。图 1 展示了 AI+HW 协同演化的这种多层次愿景。

各抽象层的主要特征

在本小节中,我们将详细阐述图 1 中所示的每个抽象层的定义特征和设计原则。这些层共同体现了所提出的 AI + HW 协同设计框架的层次结构和双向交互。

一、硬件层:硬件技术

未来十年,硬件设计必须进行根本性的创新,同时配合更高效的人工智能模型,才能在人工智能训练和推理效率方面实现千倍提升。关键方向包括:以内存为中心的架构,最大限度地降低数据传输的能耗和延迟;高密度3D单片集成,将计算层、内存层和互连层垂直堆叠;3D芯片堆叠;以及内存计算和模拟人工智能加速器,直接在数据所在位置执行计算。

同样重要的是连接性和计算协同设计,包括光子和光电互连以及计算架构,这些架构能够大规模地提供超高带宽、低延迟和节能的通信。需要采用人工智能优化的系统拓扑和路由策略来匹配新兴的模型结构和数据流,从而实现CPU、GPU、FPGA、ASIC和特定领域加速器等异构组件之间的高效协调。

与此同时,量子-经典融合为混合系统开辟了新的机遇,将经典人工智能流水线与量子处理器相结合,以应对经典方法无法企及的优化、仿真和学习任务。这些进步将共同重新定义吞吐量、成本和能效的极限。实现这一愿景需要人工智能驱动的电子设计自动化成为硬件工作流程的核心组成部分,利用大型和小型语言模型来自动化设计空间探索、代码生成、验证、综合以及跨器件、架构和互连的系统级协同优化。在下面的章节中,我们将全面讨论这一抽象层,包括其关键概念、挑战、新兴趋势、潜在陷阱、未来十年的成功里程碑以及针对学术界、工业界和政府的建议行动方案。

二、算法层:算法与范式

在这一层,人工智能需要与硬件层协同工作,使其具备硬件感知能力,同时硬件也需要具备人工智能自适应能力。目前模型创新与硬件开发脱钩,造成了持续的不匹配:人工智能的演进周期以月为单位,而硬件的演进周期则以年为单位。弥合这一差距需要将人工智能直接嵌入系统设计循环中。人工智能在环设计自动化将彻底改变架构、编译器和系统的构思方式,使基于学习的方法能够近乎实时地优化内存层次结构、互连和微架构。

与此同时,硬件感知的训练范式将通过低精度计算、稀疏性、模块化和内存高效执行来提高效率。诸如可微分模拟器、用于加速器的神经架构搜索以及基于强化学习的硬件调优等新兴方向,都指向能够通过反馈不断改进的自演化计算堆栈。除了优化之外,新的学习范式,包括物理信息学习和潜在世界模型(例如 JEPA ),承诺构建能够推理物理过程而非仅仅拟合数据的AI系统,从而将符号推理与持续学习相结合。下面的文章将详细探讨这一抽象层,并沿用第下文建立的结构框架。

三、应用层:应用与社会影响

在这一层,人工智能系统最终必须满足人类和地球的需求,同时保持计算的可持续性。随着人工智能渗透到生产力工具、医疗保健、材料发现、教育、交通运输、经济系统和国家安全等领域,计算需求和能源消耗的增长速度越来越快,可能超过现有基础设施的承载能力。

到本十年末,训练一个前沿模型所消耗的能源可能相当于整个国家的能源消耗,这将引发严重的环境、经济和伦理问题。因此,硬件和算法层的创新对于这一层至关重要:硬件技术的进步使得大规模部署成为可能,而算法创新,包括硬件感知训练、领域特定模型和基于物理信息的学习,则将这些能力转化为实用高效的解决方案。

与此同时,这一应用层的需求必须反馈到其他两层。现实世界的应用对能源、延迟、鲁棒性、可解释性和成本提出了限制,这些限制反过来又推动了新的算法范式的出现,并对硬件系统提出了具体的设计目标。应对这些挑战需要的不仅仅是更多的硬件,而是更智能、目标明确的人工智能系统。针对特定领域的 AI,例如科学发现、工程设计或物理建模。

通过将物理定律、结构和因果先验直接嵌入学习中,可以显著降低计算和数据需求。许多应用还将依赖于混合边缘-云架构,其中低延迟推理在边缘进行,而大规模训练和适应在云端进行。从经济和社会角度来看,衡量成功的标准必须从原始吞吐量转向每焦耳的智能。这种转变将重新定义我们评估创新的方式,并使技术进步与全球可持续发展目标保持一致。

跨层协同设计:从各自为政到协同增效

如前所述,未来的变革不仅源于各层级的进步,也源于跨层的协同设计。算法必须适应物理限制;硬件必须演进以服务于学习动态;而系统软件则必须充当连接组织,确保系统的适应性和可靠性。

例如,优化端到端能源利用需要统一的抽象概念,将模型结构与芯片布局、运行时调度乃至散热策略联系起来。同样,可靠性和可信度必须通过形式化验证、基于物理原理的弹性设计和安全计算等方式构建到硬件层面,而不是作为软件的后续考虑。

这一愿景也重新定义了设计效率。通过利用人工智能模型进行硬件生成、验证和仿真,从概念到原型的周期可以从数年缩短到数月甚至数周。开放数据集、模块化模拟器和标准化基准测试,例如 ITBench ,IMC-Bench 以及 CVDP 基准测试,这将进一步加速可重复性进展。

图片
图片
图片
图片
图片
图片
图片
为了更具体、更细致地扩展图 1 所示的愿景,表 1 列出了一系列细粒度的抽象层及其使能技术、新兴趋势以及相关的影响和挑战。它全面且前瞻性地展现了未来人工智能和硬件系统的发展前景,涵盖了从器件和材料到算法和模型的各个层面,并着重阐述了为何任何单一层面的进展都不足以满足下一代人工智能系统的需求。

该表的创新之处在于明确地展示了材料、3D 集成、模拟和光子计算、架构、互连、系统基础设施、软件栈和算法等各层之间的紧密耦合和相互依赖关系,从而揭示了丰富的跨层优化机会,而这些机会往往被各自独立的研究工作所掩盖。通过系统地将使能技术、人工智能软硬件与其相应的影响和挑战联系起来,该表格提供了一个统一的框架,旨在指导学术界开展高影响力、跨学科研究,帮助产业界优先考虑提升性能、能源效率和可扩展性的有效协同设计策略,并向政府资助机构提供信息,明确哪些领域最需要持续、协调的投资。

在未来十年,这种分层视角将提供强大的战略价值,它阐明了如何将某一层面的突破与其他层面的创新协同开发,以克服数据传输、内存壁垒、电源供应、可编程性和可靠性等根本瓶颈,最终通过整体性的跨层协同设计,实现可持续、高效且可扩展的人工智能系统。

未来人工智能系统的硬件技术

关键见解

硬件技术决定了未来人工智能系统的物理极限和发展机遇,因此必须与算法范式持续协调设计。如表1多行所示(例如,3D集成/异构封装;模拟/混合信号/内存计算;光子/光互连/计算;冷却和供电;系统基础设施),人工智能系统的主要制约因素正从原始计算能力转向数据传输、连接性、能效、系统级集成和成本效益(例如,每个token的成本)。由此可见以下几个基本要点:

1、系统级限制已成为主要限制因素:供电、散热、可靠性和数据传输现在比芯片级考虑因素更为重要,因此需要在机架和整个计算集群之间进行协调的协同设计。

2、数据移动已成为主要瓶颈:跨内存层次结构和互连移动数据的能量成本现在远远超过算术运算,直接促使人们采用新的算法技术,如下文中描述的稀疏性、局部性感知模型和模块化执行。

3、连接性与计算能力同样重要:性能扩展越来越依赖于互连带宽、延迟和拓扑结构,需要连接性-计算协同设计,而不是将网络视为次要考虑因素。

4、集成密度重塑架构:密集的 3D 集成和异构封装打破了逻辑、内存和互连之间的传统界限,从而实现了在平面系统上无法实现的新算法数据流。

5、硬件必须具备适应性:固定功能的硬件无法跟上快速发展的人工智能算法;相反,硬件必须是可重新配置的、可编程的,并且在设计时要考虑到算法的演进。

6、人工智能必须帮助设计硬件:未来系统的规模和复杂性需要人工智能驱动的EDA,从而形成一个闭环反馈,人工智能系统设计出能够加速未来人工智能模型的硬件。

这些见解强调了硬件创新和算法创新是不可分割的,必须作为一个统一的系统进行共同设计。

主要挑战与机遇

从跨层视角来看,硬件层面临着几个相互交织的挑战,同时也创造了前所未有的创新机遇。

一、主要挑战

1、内存和数据传输壁垒(表 1:内存层次结构、互连)

(1)在训练和推理过程中,片外内存访问是造成能耗和延迟的主要原因。

(2)传统的基于缓存的层次结构与 AI 访问模式不匹配,尤其是对于注意力机制和大型嵌入表而言。

(3)这些限制直接促使人们采用算法压缩、局部感知训练和模型划分策略。

2、连接扩展极限(表 1:光子/光互连)

(1)电气互连在带宽密度和能源效率方面难以扩展。

(2)网络启动延迟和协议开销限制了大型分布式模型的有效利用。

(3)网络拓扑结构与人工智能数据流不匹配会降低可达到的性能。

3、热力及电力输送限制(表 1:冷却和电力输送)

(1)高密度三维堆叠结构会加剧散热难题。

(2)功耗和散热限制现在直接制约着人工智能的性能、可扩展性和可靠性。

(3)热变化会带来可靠性和使用寿命方面的问题。

4、设计复杂性爆炸式增长(表 1:系统基础设施、EDA)

(1)硬件模拟器和评估工具越来越跟不上现实世界系统的复杂性,导致研究原型和可部署系统之间出现验证差距。

(2)如今的设计空间涵盖了器件、材料、封装、架构、互连和软件等多个方面。手动设计流程无法有效地探索这一空间,从而导致系统性能欠佳。

虽然硬件层面临着根本性的扩展性挑战,但它也提供了一些最强大的杠杆点,可以在与下文中的算法和系统共同设计时实现变革性的收益。

二、关键机遇

1、迈向跨层、系统中心的AI硬件设计。

未来的AI硬件必须采用跨层、系统中心的视角进行设计。将算法、编译器和物理平台紧密耦合。这需要新的硬件抽象,将数据移动、内存局部性和能耗成本作为一等基本要素公开,使学习算法能够直接推理物理约束,而不是依赖抽象的浮点运算次数(FLOPs)。硬件研究也应与新兴的AI范式(例如模块化、智能体和物理信息模型)协同演进,支持可重构的执行基础架构、弹性内存层次结构和可编程互连,使其能够随着模型的变化而调整。相应地,评估方法必须超越组件级指标,转向端到端系统指标,包括每焦耳智能、实际工作负载下的持续利用率以及对热和功率变化的鲁棒性,才能准确捕捉AI+硬件协同设计的真正效果。

2、以内存为中心和内存内计算作为算法使能器。

模拟、混合信号和数字内存计算架构通过将计算与存储置于同一位置,从根本上减少数据传输,从而提供目前最先进的能源效率和计算密度。尽管扩展到更大的模型仍然是一个巨大的挑战。除了原始效率之外,这些架构还实现了新的算法抽象。例如,近似计算和噪声算术可以被本质上稳健、概率性或自纠正的算法所接受。这为以牺牲精确性为代价,换取数量级的效率提升的学习范式开辟了机会 ,尤其是在训练和大规模推理方面。

3、面向新型数据流的三维集成与异构封装。

高密度三维集成和先进的封装技术缩小了逻辑、内存和互连之间的物理距离。这使得细粒度、高带宽的通信模式成为可能,并可被分层、模块化和局部性感知模型所利用。从协同设计的角度来看,算法设计者可以采用新的空间和时间局部性形式,而硬件设计者可以根据模型结构调整垂直集成策略,从而产生全新的计算-内存数据流。

4、光子和光电连接:扩展性的突破。

光子和光电互连提供近乎与距离无关的带宽和低延迟,使人工智能系统能够横向扩展和纵向扩展,不再受电信号传输限制。这为那些依赖于丰富、低延迟全局通信的算法范式创造了机遇,例如大规模模型并行、分布式注意力机制以及跨智能体的集体推理。随着时间的推移,光子计算元件还有望催生线性代数和信号处理领域的新原语。

5、连接性-计算-拓扑协同设计。

人工智能工作负载展现出高度结构化的通信模式,与传统网络拓扑结构不匹配。围绕人工智能数据流协同设计系统拓扑、路由和计算资源部署,可以提高资源利用率并降低能耗。这一机遇与结构化稀疏性、流水线并行性和基于图的执行模型等算法研究直接相关。

6、人工智能驱动的设计自动化:倍增器。

未来硬件系统的复杂性使得人工智能驱动的EDA成为关键因素。这不仅有益,而且至关重要。基于学习的设计工具可以探索庞大的设计空间,优化各层之间的权衡,并快速针对新兴算法定制硬件。反过来,这些工具又依赖于人工智能模型在学习、优化和表示方面的进步,从而形成一个良性循环:人工智能改进硬件,进而加速未来的人工智能发展。

7、用于超高密度 3D 集成电路的热支架。

新兴的热介电材料和热支架结构对于超高密度 3D 集成电路将变得越来越重要,能够改善垂直堆叠式 AI 系统的散热、降低热阻并提高可靠性。此类材料层面的创新可以从根本上重塑下一代人工智能加速器的热环境。

关键问题及答案

Q1:硬件创新仍然是人工智能进步的主要驱动力,还是算法已经超越了硬件创新?

A:两者单独来看都不够。算法的突破越来越依赖于硬件能力,而硬件的提升只有在算法相应调整的情况下才能转化为实际影响。持续进步需要两者不断协同演进,硬件催生新的算法范式,而算法也积极影响硬件的设计目标。

Q2:未来人工智能硬件中,专业化和通用性能否共存?

A:是的,但只能通过分层和模块化设计来实现。专用加速器、Chiplet和模拟或光子组件必须通过可编程接口和编译器支持组合成灵活的系统。如细纹所述,算法模块化和可组合性对于使专业化具有可持续性而非脆弱性至关重要。

Q3:人工智能系统能够容忍多大的近似性和异构性?

A:比传统计算模型假设的要多。许多人工智能工作负载本质上是统计性的,可以容忍噪声、精度降低和近似计算。诸如鲁棒性感知训练、不确定性建模和自适应精度等算法技术,使系统能够在保持准确性和可靠性的同时,充分利用人工智能模型和异构硬件组件的统计特性。

Q4:硬件设计周期能否真正跟上人工智能创新的步伐?

A:传统工作流程无法实现。然而,人工智能在环硬件设计、生成式EDA和可重用芯片生态系统可以显著缩短设计周期。这种方法与下文中提到的趋势相呼应,即学习系统会持续适应变化,而不是静态定义。

Q5:硬件层面的成功应该如何衡量?

A:传统的指标,例如峰值浮点运算次数(FLOPs),已不足以衡量成功。必须从系统层面的结果来衡量成功,例如每焦耳智能、端到端延迟、可扩展性以及对不断演进的算法和应用程序的适应能力。这些指标与底层讨论的应用层目标直接相关,并强调了跨层优化的必要性。

Q6:社会和应用需求如何影响硬件优先级?

A:诸如能效、鲁棒性、实时响应性和边缘部署能力等要求必须反馈到硬件设计中。这些约束条件既影响算法选择,也影响硬件架构,从而确保创新始终与社会影响保持一致,而不是仅仅追求技术指标。

重要的未来趋势

为了把握人工智能模型扩展性和效率的未来趋势,我们利用2020年至2025年的代表性数据,研究了时间、准确率和模型规模的联合演变,并将趋势外推至2030年。我们同时展示了二维和三维预测图,以揭示互补的见解。

图2展示了二维图,清晰地呈现了模型规模、准确率和时间之间的两两关系。尽管这些可视化图是二维的,但其中隐含了来自第三维度的额外信息——例如,在“模型准确率与时间”图中,模型规模由圆圈的大小表示。

图片
从这些图中,我们可以发现几个一致的趋势。首先,即使模型规模发生变化,准确率也会随着时间的推移而稳步提高,这表明效率的提升并非仅仅依靠蛮力扩展,而是源于算法和架构的进步。其次,在固定的时间窗口内,更高的准确率通常与更大的模型规模相关,这反映了当代基础模型普遍存在的扩展规律。第三,在固定的模型规模范围内,准确率会随着时间的推移而提高,这凸显了训练方法、数据管理和模型设计方面的进步。虽然这些趋势很有启发性,但当我们在三维空间中直接检查它们的关联性时,这些趋势会变得更加完整和直观,如图 3 所示。

图片
图 3 通过将时间、模型大小和精度整合到一个三维几何表示中,扩展了上述分析,并使用相同的底层数据点捕捉它们之间的联合相关性。通过将每个模型明确地放置在共享的三维空间中,该视图能够直接比较不同世代模型的进展,更清晰地识别异常值,并更全面地评估效率提升。重要的是,三维表示允许固定一个维度(例如时间、精度或模型大小),同时观察其他两个维度如何协同演化,如图中绘制在三维平面上的三条曲线(蓝色、绿色、红色)所示。这使得我们能够获得比仅基于二维投影的更多见解,例如达到目标精度所需的模型大小如何随时间缩小,或者在固定资源预算下精度如何变化。除了单个趋势之外,三维视图还提供了模型、性能和效率协同演化的结构化和全面图像。

这些趋势表明,人工智能系统进步的定义和追求方式正在发生根本性的转变。过去,进步往往是通过优化单一主导维度(最显著的是模型规模)来驱动的,其假设是更大的模型必然会带来更高的精度。虽然这种规模驱动的阶段取得了显著的成果,但如今已接近饱和,促使人们自然而然地转向优化其他关键维度,例如效率、功耗、延迟、成本和可部署性。该领域的长期发展方向并非着眼于在这些维度之间进行权衡,而是致力于融合各种解决方案,以提升所有维度的设计质量,即通过算法、硬件和系统的协同设计,构建更小、更专业的模型,从而实现更高的精度和效率。

在这种新兴范式中,智能效率将成为核心指标,讨论的焦点将从单个模型转向完整的系统和智能体生态系统,其中合适的模型会动态地与合适的任务相匹配。大型模型对于复杂的推理仍然不可或缺。随着人工智能与物理世界的交互日益频繁,规模较小的领域优化模型将主导集中式和资源受限的工作负载,尤其是在知识合成和物理领域,小型化人工智能将占据主导地位

展望2035年,物理人工智能预计将占据现实世界推理的绝大部分,而高效的小型模型将为此提供主要支持。这一前景强调了整体设计人工智能系统的必要性,并将每焦耳、每美元和每秒的智能作为首要目标。基于这些趋势,我们重点介绍以下关键技术方向。

一、近期使能技术发展趋势(2-5年):

1、具有原生量化和稀疏性支持的领域特定 AI 加速器(例如,张量核心、NPU),通过使硬件执行与现代 AI 工作负载的结构、精度和稀疏性保持一致,从而大幅提高每瓦性能。

2、异构计算节点结合了 CPU、GPU 和 NPU,使得 AI 流水线的不同组件(控制逻辑、密集计算、稀疏执行和 I/O)能够映射到最合适的硬件,从而提高利用率并减少系统级效率低下。

3、高带宽内存 (HBM) 集成,具有更宽的接口和更紧密的计算耦合,解决了内存带宽和数据移动日益成为训练和推理的主要瓶颈问题。

4、3D封装和基于芯片的架构,能够实现计算、内存和专用加速器的可扩展组合,同时与单片设计相比,还能提高良率、灵活性和上市时间。

5、硬件感知编译器、自动调优器和优化的运算符库对于将架构进步转化为真正的、持续的效率提升以及缩小峰值能力与实际利用率之间的差距至关重要。

6、通过对 API、中间表示、模型格式、运算符和内核库以及安全性、隐私性和溯源规范进行标准化,减少生态系统碎片化,实现异构 AI 系统的可移植性、互操作性和更快的采用。

7、边缘和设备端 AI 功能以小型、高效的模型为中心,支持低延迟、保护隐私和节能的推理,为大规模部署与物理世界交互的 AI 系统奠定了基础。

8、混合和统一内存层次结构,将快速 DRAM 与较慢的 NVRAM 或闪存相结合,并在 CPU、GPU 和加速器之间实现统一内存,以更好地匹配新兴 AI 工作负载的分层访问模式和持久状态要求。

二、中长期使能技术发展趋势(6-10年):

1、通过混合量子-经典系统实现量子加速人工智能,其中量子处理器与经典人工智能管道互补,用于优化、采样和模拟任务,这些任务使用传统方法难以扩展。

2、芯片内部和芯片之间的光子和光学互连,可显著提高带宽密度和能源效率,使大规模人工智能系统能够突破电互连的限制。

3、光子加速器和模拟-光学混合计算,为专门的 AI 工作负载中的线性代数和信号处理提供新的节能原语。

4、更广泛地采用内存计算和模拟计算,通过将计算与存储放在一起,从根本上减少数据移动,同时依靠算法的鲁棒性和容错学习来管理噪声和变化。

5、计算、内存和逻辑的密集 3D 异构集成,打破了传统的架构边界,实现了新的数据流、更紧密的耦合和更高的系统级效率——这些能力对于支持未来物理人工智能系统中许多新兴的应用和工作负载至关重要。

6、如果能够大规模制造,超越传统 CMOS 的新材料和晶体管技术将克服功率、速度和集成密度方面的根本限制。

7、具有自适应一致性和编排能力的超可扩展分布式人工智能系统,能够动态管理跨云、边缘和设备层的计算、内存和通信,支持大量智能代理的协调运行。

潜在障碍、陷阱和解决方案

障碍与陷阱

• 模拟和光子系统中的噪声、漂移和校准挑战。

• 高密度3D集成中的良率和可靠性问题。

• 软件生态系统碎片化,限制了可移植性。

• 过度专业化会降低通用性和可重用性。

• 在采用先进技术节点制造的大规模人工智能系统中,静默数据损坏 (SDC)(包括测试逃逸和集群级潜在错误)对可靠计算构成日益严重的威胁,尤其是在激进的电压缩放和异构集成的情况下。

潜在解决方案

• 算法鲁棒性技术,例如噪声感知训练和误差补偿。

• 使用嵌入式学习代理的自适应校准。

• 第 4 节中与算法抽象相一致的模块化硬件和软件接口。

• 社区驱动的标准和开放基准。

• 跨层可靠性监控、错误检测和纠正机制、机群规模遥测分析以及硬件-软件协同设计方法,

这些方法明确地对生产部署中的 SDC 风险进行建模和缓解。

十年后,成功意味着什么?

十年后,硬件的成功将体现在异构组件间的无缝互操作性上,即无需重新设计整个软件栈即可集成新的加速器,并且可靠性能够随系统规模的扩大而可预测地扩展。数据传输通过设计得到最大程度的减少,连接性能够透明地扩展,硬件能够随着算法的演进而不断调整。模拟、数字、光子和量子组件能够在统一的系统中共存。硬件和算法通过人工智能驱动的设计自动化持续进行协同优化。最重要的是,这些系统能够显著提高每焦耳能量的智能水平,从而使技术进步与社会和环境的可持续性保持一致。

成功还意味着硬件平台可以通过软件和编译快速重新专门化,或者进行结构重新配置,从而无需重新设计芯片即可部署新的 AI 模型、代理和物理世界工作负载,从而缩小硬件生命周期与 AI 创新速度之间长期存在的差距。

针对学术界、产业界、政府和社区的建议行动项目

一、学术界

• 领导跨学科研究,涵盖材料、器件、架构、算法和EDA。

• 开发反映跨层交互的开放式测试平台和基准测试。

• 培养学生熟练掌握硬件和人工智能领域的各项技能。

二、行业

• 应该投资于硬件和算法的协同设计,而不是孤立的优化。

• 共享竞争前的基础设施和标准。

• 大规模部署人工智能驱动的设计工作流程。

三、政府

• 资助三维集成、光子学、模拟人工智能和量子-经典系统等领域的长期研究。

• 支持国家共享基础设施和开放平台。

• 鼓励跨部门合作。

四、社区

• 将评估指标转向系统层面的效率和社会影响。

• 鼓励可复现性、开放性和互操作性。

• 培养一种整体性、跨层次的创新文化。

可扩展人工智能+硬件的算法和范式

关键见解

本节探讨了算法、架构和基础设施中可扩展人工智能的核心瓶颈;讨论了开发小型高效模型的必要性和机遇,这些模型能够与大型模型在边缘应用(包括物理人工智能)中相媲美;审视了当前基于注意力机制的低层模型(LLM)方法的局限性,并探索了新的人工智能模型;同时提出了未来高效硬件架构的研究方向,以加速人工智能运行,重点关注异构、粗粒度可重构、以内存为中心的计算堆栈,涵盖CPU、GPU、可编程架构,甚至具有可扩展互连的量子处理器。贯穿各章节的主题包括人工智能模型与硬件的协同设计、能效优化、人工智能驱动的芯片设计自动化、计算-内存集成以及千兆瓦级集群优化。物理信息学习、神经算子和混合符号-物理推理不仅对科学应用至关重要,而且对提高人工智能系统的效率、鲁棒性和可解释性也至关重要。智能体人工智能系统越来越多地扮演着协调者的角色,在现实世界的约束下动态地选择模型、内核、硬件资源和执行策略。

从历史上看,算法创新带来的效率提升是突飞猛进的,其效果足以媲美甚至超越单纯的硬件扩展。过去的转型——例如从循环架构到基于注意力机制和状态空间模型的演进——表明,模型结构、训练动态和表示方式的根本性变革能够释放此前无法企及的可扩展性和效率。展望未来,模块化架构、长期记忆系统、稀疏感知学习、因果和物理信息表示以及任务的智能体分解等领域的进步有望带来类似的突破。这些算法的变革能够显著降低计算量、内存流量和通信需求,从而重塑硬件设计目标,而不仅仅是适应现有目标。因此,要实现人工智能训练和推理效率提升1000倍,就需要持续投入算法研究,重新定义所需的计算类型,而不仅仅是提高现有计算的执行效率。

训练和推理对系统提出了截然不同的要求,必须将其视为不同的协同设计目标。训练工作负载优先考虑吞吐量、统计效率、峰值准确率以及长期的摊销能耗成本,而推理——尤其对于机器人、自动驾驶汽车和工业控制等物理人工智能系统而言——则需要在严格的功率预算下实现毫秒级延迟、确定性响应和极高的能效。对于在物理世界中持续运行的实体系统而言,能效直接影响运行寿命(例如,每次充电后的自主运行时间)、安全裕度和热可靠性。

现有的已部署系统,例如自动驾驶平台,已经证明了在严格的延迟和功耗限制下进行大规模实际推理的可行性,为人工智能与硬件的协同设计提供了宝贵的经验。这些系统表明,推理效率不仅取决于算术成本,还取决于内存访问、传感器融合、控制回路集成以及最坏情况下的执行保证。展望未来,要实现物理人工智能效率的量级提升,需要针对实时推理进行专门优化的软硬件堆栈,包括可预测的内存层次结构、局部性优先执行、混合关键性调度以及平衡准确性、鲁棒性、延迟和能源效率的领域专用模型。

这些目标的实现必须依靠密切的跨学科合作,旨在缩小并最终消除快速发展的模型/算法开发与进展缓慢的硬件路线图之间创新速度的不匹配。人机交互(HAI)仍然是重中之重,尤其是在智能体时代,人类和智能体需要无缝协作,才能使人们表达意图并使机器可靠地执行复杂任务。

主要挑战与机遇

要实现可扩展的AI+HW创新,需要解决以下挑战:

  • 孤立的硬件开发和模型设计(表 1:算法、模型、编程抽象、系统基础设施):
传统上,人工智能硬件开发各自为政,算法、编译器和物理平台大多独立优化,评估指标也局限于组件层面,例如峰值浮点运算次数或带宽。未来的人工智能硬件必须采用跨层、系统中心的设计视角,将算法、编译器和物理平台紧密耦合。这需要新的硬件抽象,将数据移动、内存局部性和能耗成本作为一等基本要素暴露出来,使学习算法能够直接推理物理约束。基于跨层学习的模型将根据实时硬件遥测数据(例如拥塞情况、温度状况和能源可用性)动态调整执行策略,包括精度、稀疏性、分区和布局。

  • 算法暴力破解与检索优势(表 1:算法、模型、内存层次结构、编程抽象):
当前模型主要依赖注意力机制、向量相似性和检索,导致随着参数数量和上下文长度的增加,效率下降。类人抽象和替代模型架构(包括小型模型集成)可以显著提高效率。我们需要新的学习算法来利用深度内存层次结构、分层存储和持久内存,从而将优化目标从浮点运算次数 (FLOPs) 转向内存流量和数据局部性。

  • 能量、存储和互连壁垒(表 1:存储层次结构、互连、3D 集成、异构封装):
在硬件层面,能量是限制因素,芯片内部和芯片间的互连是能量开销的主要来源。这导致内存容量和带宽成为主要的性能瓶颈。近内存/内存内计算、2.5D/3D异构集成和光互连是克服这些挑战的有希望的方向。内存高效架构,包括Mamba中提出的架构[23]和 HMT [27这些代表了值得进一步探索的有前景的方向。

  • 利用率低和协同设计差距(表 1:加速器架构、系统基础设施、编译器、运行时、软件栈):
在实际部署中,系统通常仅以 5% 至 20% 的利用率运行。新的加速器芯片经常在软件栈尚未完全针对上一代芯片进行优化之前就已面世,这凸显了自动化、跨层设计空间探索和优化的必要性。这种协同设计方法可以弥合当前人工智能算法发展速度与硬件设计速度之间的差距。自改进系统正迎来日益增长的机遇,在这种系统中,模型可以生成优化的内核、指导编译并随着时间的推移不断改进硬件利用率。硬件高效的架构,例如 FlashAttention,PagedAttention、以及 RadixAttention 已展现出强大的潜力,值得继续研究和更广泛地采用。

  • 吉瓦级运行(表 1:互连与联网、系统基础设施、冷却与电力输送):
优化必须针对整个GW级集群(调度、部署、功耗/散热/冷却、电网约束),而不仅仅是单个节点。目标是在整个部署范围内优化每瓦性能和每瓦精度。互连感知和拓扑感知模型必须与工作负载感知的网络架构协同演进,以降低大规模同步和通信开销。

  • 边缘约束(表 1:内存层次结构、系统基础设施、算法、模型):
机器人和移动系统的设备端人工智能既是一个新兴的挑战,也是一个重要的机遇,它推动了新的硬件创新(例如 3D 集成或内存计算),并推动了特定应用模型与专用硬件的紧密协同设计。

关键问题及答案

下面我们总结了与 AI+HW 协同创新相关的算法和平台层面的几个核心问题,并给出初步答案。

Q1. 可扩展的 AI + HW 的瓶颈是什么?

A:瓶颈:能源限制、内存(容量/带宽/局部性)瓶颈、互连架构限制、基础设施利用率不足以及缺乏抽象层。解决方案:细粒度的内存内计算/近内存集成、可扩展的3D内存、更好地探索模型和硬件开发的设计空间、人工智能研究、硬件设计、编译器开发以及集群级(GW级)优化之间的早期协同设计。

Q2. 体积小 10-100 倍的模型是否也能具备同样的功能?

A:通过专注于特定应用领域,这是可以实现的。可能的途径包括:剪枝和量化;具有清晰法律和知识产权框架的特定领域蒸馏;新型架构,例如集成长期记忆的架构;效率大幅提升的异构硬件;以及混合部署策略。生态系统视角:一项由政府资助、社区参与的计划,旨在训练大型“教师”模型,并明确授权用于蒸馏;在效率、延迟或隐私至关重要的场景部署小型模型,在质量至关重要的场景部署大型模型;并实现多智能体系统,其中本地模型可以协作,并根据需要选择性地调用大型模型。

Q:我们只需要attention吗?

A:不。attention对于大型语言模型(LLM)至关重要,但并非万能;卷积神经网络、状态空间模型(SSM)和扩散模型也同样重要。重要的是使用客观的、与任务相关的指标,并避免将相关性与因果关系混淆。由于参数数量庞大,如今的LLM推理很大程度上受限于内存以及随着上下文长度增加,KV缓存流量的主导地位日益增强;滑动窗口/稀疏模式、缓存共享和长期存储器的使用有所帮助,但进一步提高运算强度仍然至关重要。硬件应该重视可重构的底层原语,并考虑提高内存利用率,而不仅仅是浮点运算次数。

Q4. 理想的硬件架构是什么?

A:异构、大规模并行、以内存为中心的系统:节能核心与 3D 堆叠式可扩展内存紧密耦合;高效支持遵循小世界网络模型的密集局部连接和稀疏全局连接;用于高带宽全球通信的光链路;用于灵活性的可重构结构;以及有针对性地使用量子计算,这些系统还必须解决部署复杂性、软件堆栈集成以及舰队级功率和资本支出权衡等问题。

Q5. 最重要的研究重点是什么?

A:人机交互(HAI)通过更清晰的抽象、明确定义的人机交互角色以及有效的人机协作,将人类意图与机器执行联系起来;利用人工智能辅助技术,跨层探索和协同设计人工智能算法、系统、芯片和设计工作流程;人工智能赋能的量子计算,包括在低温和控制功率限制下运行的量子纠错解码、编译和嵌入式人工智能;人工智能驱动的芯片和系统设计自动化,通过智能体编排,智能体动态选择模型、资源和上下文信息;以及自我改进系统,其中模型生成优化的内核,不断改进自身的基础设施,并适应特定领域的、通常是实时的数据流。

重要的未来趋势

  • 融合异构堆栈:未来的人工智能基础设施将采用融合异构堆栈[68]将经典的、人工智能专用的密集计算、可重构结构和量子计算机集成在一起,并在密集的局部 3D 计算内存之上建立光学全球链路。
  • 计算与内存融合以克服能耗/延迟限制。诸如内存内计算/近内存计算等技术,3D堆叠,以及以内存为中心的数据流将成为主流。这些变化将需要新的编程模型、散热设计以及针对局部性和效率优化的混合模拟-数字组件。
  • 小型模型与大型模型的共生:大型模型将作为提炼和推理支架的来源,而紧凑型小型语言模型(SLM)则可在边缘和嵌入式设备上高效运行。领域优化的SLM将从开放前沿教师模型中提炼而来,并由多智能体框架进行协调。
  • 机制理解驱动专业化:随着可解释性研究揭示模型内部如何表示计算,这些知识将转化为新的、专门的数据结构和领域优化的内核。模型洞察将指导压缩、缓存和稀疏性策略,并将越来越多地直接编译成硬件指令,从而实现内核的自动生成和形式化验证,以确保其性能和安全性。
  • 自优化流水线:能够自我调度、合成内核并与硬件协同演化的模型将会出现,从而缩短设计周期,提高持续利用率,模糊人工智能模型、软件栈和硬件平台之间的界限。人工智能生成和验证的内核将成为标准,从而实现跨不同硬件后端的性能可移植性和正确性。
  • 隐私保护策略的分歧:生态系统日益分裂为严格的设备端推断和安全的云执行两类,从而推动了双轨制工具和部署策略的出现。消费者和监管机构的压力将促使边缘设备拥有更强的本地自主权,而企业则会将高价值工作负载整合到加密、可审计的云环境中。
  • 去中心化和以代理为中心的AI系统将日益成为集中式云端模型的补充。未来的AI系统不再依赖于单一的推理终端,而是由大量半自主代理组成,这些代理运行于边缘设备、机器人、虚拟环境和数字孪生体等平台,并通过稀疏通信和共享抽象进行协调。这种去中心化的AI生态系统类似于元宇宙规模的系统,其中计算、学习和决策分布在具有不同能力和信任假设的异构节点上。这种范式在编排、一致性、安全性和能源效率方面带来了新的挑战,但也提供了弹性、可扩展性和本地化优势。
潜在障碍、陷阱和解决方案

以下问题被认为是潜在的障碍和陷阱,我们提出了一些初步解决方案。还需要研究界提供更多解决方案。

  • “先有鸡还是先有蛋”的问题常常会阻碍技术栈(服务、系统、硬件)各个碎片化层面的进展:
解决方案:解决此问题需要服务提供商、系统设计人员以及 SoC 和存储器供应商之间进行有意识的跨层协作和/或垂直联合投资。

  • 异构性带来了巨大的软件负担和车队层面的权衡取舍,而品牌惯性(“一切都是GPU”)进一步强化了这一点:
解决方案:开发通用中间表示 (IR) 和图形编译器、可移植性层和验证工具链;战略性地规划电力和资本支出 (CapEx) 分配;并建立披露标准和沟通实践,以揭示真实的架构属性,例如数据流模式、内存强度和互连特性。

  • 蒸馏过程中的法律/知识产权和数据壁垒:
解决方案:开放数据信托;政府支持的许可;溯源/合规性;资助明确允许提炼的开放教师模式。

  • 量子能量和控制的研究工作受到噪声、可扩展性有限和集成复杂性的阻碍:
解决方案:投资低温CMOS控制和分布式低温设备;将高性能计算/GPU集群与量子处理器放在一起;开发鲁棒的控制理论和节能的硬件-软件优化。

十年后,成功意味着什么?

我们认为,以下目标或里程碑可以作为衡量未来 10 年可扩展 AI+HW 创新成功与否的良好指导方针。

  • 能够根据人类意图可靠地执行复杂任务的系统(在实践中实现的人机交互)。
算法的成功需要可重复的多指标评估——涵盖质量、延迟、能源、成本和利用率——以及能够有效规划、选择合适的工具、模型和资源、强制执行安全和验证约束,并在云、企业、边缘或物理人工智能环境中以最小的监督执行多步骤目标的 AI 系统。

  • 100倍的端到端能源效率和≥集群持续利用率达到 60%,并在千兆瓦级规模下进行了优化。
效率的提升来自于计算与内存的集成(近内存/内存内、3D堆叠内存、局部性优先算法)以及闭环集群优化,该优化将遥测、自动调优和智能调度集成到千兆级数据中心和大型边缘集群中。

  • 完全可互操作的异构系统,具有无缝协调和光纤全球链路。
生产堆栈集成了 CPU、GPU、粗粒度可重构结构、特定领域的 ASIC 和量子计算机(如适用);默认情况下以内存为中心;采用密集的本地连接和稀疏的全球连接,并在全局层使用光网络;并且能够跨供应商和站点可移植地协调工作负载。

  • 一个成熟的领域调整型 SLM 生态系统,由从宽松许可的开放教师中提炼而来,并部署在多智能体框架中。
合法、开放的教师模型具有明确定义的使用权,能够实现特定领域的知识提炼;而紧凑的小型语言模型(SLM)则运行在边缘和机器人平台上,以满足隐私、延迟和能耗方面的限制。这些SLM可以与基于云的LLM协同工作。1,21,57通过多智能体系统,动态地为每个任务选择合适的模型、上下文和计算资源。

  • 可自我改进的芯片和系统人工智能管道交付≥硅设计周期加快 3 倍,具有可预测的 PPA,以及机制明确、性能可移植、经过验证的内核。
模型会定期生成和验证内核,共同设计训练和推理堆栈,并协助完成从规范到 RTL、验证、闭包和启动的 EDA 流程,并由人参与最终确认;内核在异构堆栈中具有性能可移植性。

针对学术界、产业界、政府和社区的建议行动项目

最后,我们建议学术界、工业界和社区采取以下行动,以实现 AI+HW 效率提升 1000 倍。

一、学术界:

1、应将精力集中在以抽象为中心的学习范式(组合推理、程序化中间体、规划模块等)上,以超越蛮力方法。

2、与压缩/系统相关的先进机制可解释性。

3、追求具有小世界互连拓扑结构的计算在内存/近内存 3D 集成硬件架构,以实现可扩展带宽。

4、建立客观、以任务为导向的指标(质量/延迟/能量/记忆强度)和均衡的课程体系,涵盖所有范式。

二、行业:

1、共同投资于以内存为中心的原型、可提炼的基础技术以及从遥测到 LLM 生成的内核和验证再到部署的统一优化工具链。

2、标准化代理互操作性和资源选择协议,例如 A2A 或 MCP(模型上下文协议),以便代理可以跨领域发现模型/资源。

3、发布利用率/效率遥测数据;采用披露标准,突出超越当前“GPU”范式的架构差异。

三、政府及标准机构:

1、发起类似DARPA的SLM挑战;资助具有明确提炼权的开放前沿模型。

2、代理访问 IP 库和 PDK(工具箱式)以进行法律培训数据;建立 IP/数据框架(开放信托、溯源)。

3、为近内存/内存内、3D 集成、异构运行时、光互连等开放式测试平台提供资金;设定节能采购目标;推广架构公开标准。

4、社区(All):

1、创建共享数据集和基准测试内核,以应对内存密集型和检索密集型工作负载,并系统地跟踪每个答案的能耗。

2、推广可重复的多指标报告(质量、延迟、能源、成本、利用率)。

3、开发智能体评估方法,使系统能够在实际约束条件下选择模型/资源/环境。

人工智能与硬件的实际应用:

应用及社会影响

关键见解

AI+HW协同设计不仅能实现更快的系统,还能催生全新的应用领域,涵盖从智能体AI和自主发现到与物理世界的实时交互等诸多方面,而这些在当今的能源和成本限制下是无法实现的。未来十年,AI软硬件的进步将从根本上改变几乎所有行业的生产力。更高效的AI模型,结合专用加速器和以内存为中心的架构,将以前所未有的规模和经济性实现实时推理、感知和控制。在工业和经济领域,这将转化为更智能的设计和工程工具、更快的创新周期、更优化的供应链、更具弹性的制造系统,以及能够在真实环境中安全高效运行的自主平台。在教育和劳动力发展领域,运行在节能硬件上的AI驱动的个性化学习系统将提供自适应教学、持续技能提升和大规模普及教育,帮助劳动者在AI驱动的自动化和物理系统重塑劳动力市场的过程中转型到新的岗位。

此外,跨层的AI+硬件协同设计对于将AI扩展到物理世界至关重要,因为物理系统必须在严格的实时性、安全性、能耗和可靠性约束下运行。与纯粹的数字工作负载不同,物理AI应用将感知、决策和控制与硬件执行紧密耦合,因此,跨模型、运行时和平台的端到端协同设计是先决条件,而非优化措施。

节能型人工智能将能够实现大规模气候建模、材料发现、可再生能源和智能电网的优化,以及对物理基础设施的实时监测和控制,而不会产生不可持续的碳足迹。在科学和健康领域,人工智能加速器将推动药物研发、精准医疗、先进医学成像以及通过可穿戴和嵌入式设备进行的持续健康监测。安全、可靠且注重隐私的人工智能系统还将加强网络安全、关键基础设施保护和国家安全,尤其是在自主和物理人工智能系统日益普及的情况下。通过将人工智能软件创新与硬件进步相结合,最大限度地提高每焦耳能量的智能水平,未来十年有望释放变革性的社会效益,同时确保人工智能的发展在经济上可行、环境可持续且惠及大众。

尽管“人工智能与硬件实践”看似主要关注工业界,但学术界、产业界和政府在为美国乃至全球构建更强大、更高效、更具全球竞争力的AI系统方面,都扮演着重要且互补的角色。尤其值得注意的是,产业界的诸多努力都集中在推进大型语言模型和超大规模数据中心基础设施这一主流范式上。然而,这种以工程为主导的模式往往限制了探索全新方向或重新思考现有假设的空间——而这些恰恰是学术界可以做出独特贡献的领域。与此同时,AI生态系统涵盖众多公司和技术栈的多个层面,各方之间的协调却十分有限。在此,政府可以通过鼓励合作、协调优先事项以及推动有利于国家和社会共同利益的举措,发挥建设性作用。

本部分关于人工智能和硬件实际应用的内容重点介绍了促进人工智能解决方案部署的核心问题、基础设施危机以及对长期成功至关重要的开放式学术研究的激励措施。具体而言,它着重探讨以下几个方面:

  • 试点工具与实现持续、长期应用之间存在的差距所带来的挑战,以及全球数据主权和严格的监管合规性等问题,这些问题可能会减缓创新;
  • 大型(前沿)人工智能模型巨大的成本和电力需求,加上美国由于基础设施不足和政策行动迟缓而即将面临的电力危机,可能会减缓变革性人工智能技术的应用;
  • 能源效率和系统可扩展性是公平获取的先决条件,可以防止人工智能的发展局限于少数超大规模参与者;
  • 人机协作将使人类的角色转向意图规范、协调和伦理监督,从而重塑工程实践和劳动力培训;
  • 5.弥合开放式学术研究与渐进式产业发展之间的差距,尤其要解决短期产业研究与学术研究之间的权衡问题,后者往往缺乏与产业相关的必要规模和重点。
关键问题及答案

Q1:人工智能在现实世界中部署的最大障碍是什么?

A:采用率差距依然很大:只有大约 5% 的试点人工智能技术最终转化为持续的经济回报,由于缺乏从现实世界环境中持续学习的能力、数据孤岛和数据主权制度的碎片化、运营成本高昂以及监管复杂性,导致基础设施发展放缓。

Q2. 当前最紧迫的基础设施挑战是什么?

A:迫在眉睫的电力危机。数据中心的电力需求正以数十吉瓦的速度增长,而美国的发电量和电网容量却远远落后,中国目前拥有巨大的电力优势。如果不采取行动,五年内我们将面临电力短缺,这将限制人工智能的部署。我们需要制定相关政策,确保那些运行功率低于30千瓦/机架的85%的数据中心不会被落下。

Q3:我们如何弥合学术界与产业界之间的差距?

A:建议采取三种顶级机制:(1)政府机构促进和/或协商大学与云平台之间的集体合作;(2)由行业赞助的研究项目,提供持续的资金支持,而不仅仅是一次性拨款,重点关注雄心勃勃的长期计划,例如新的节能计算范式、硬件-软件-应用程序协同设计和先进制造;(3)学术激励机制,以表彰和奖励长期、实用和系统级的贡献。

Q4:我们如何防止人工智能硬件获取方面日益加剧的不平等现象?

A:防止人工智能硬件获取方面日益加剧的不平等现象需要在模型和基础设施两方面都做出努力。在模型方面,开发更小、更高效、更专业的模型,例如具有 200 亿(或更少)个活动参数且可在边缘或配置适中的本地硬件上运行的系统,可以将可访问性扩展到超大规模数据中心之外。在硬件方面,必须通过开源工具和共享基础设施来扩大访问权限。更广泛地获取先进的半导体设计能力,例如EDA工具、制造平台和先进的PDK,以及跨行业的基准测试,可以进一步确保人工智能硬件创新能够继续为学术界、初创企业和新兴研究团体所用。

Q5. 未来十年内效率提高 1000 倍是否现实?

A:我们预测,通过模型、软件和硬件的综合进步,5 年内性能将提升 100 倍(高置信度),6-10 年内性能将提升 1000 倍(中等置信度)。实现最终 1000 倍效率提升的可行途径是:结合算法和模型优化带来的约 10 倍提升、硅利用率和技术进步带来的约 20 倍提升(备注:这代表着芯片未来十年提升20倍),以及系统级效率提升带来的约 5 倍提升。这些提升可以用每焦耳智能值来衡量。

重要的未来趋势

电力危机时间线:超大规模数据中心运营商、成熟科技公司和初创企业正在建设数十吉瓦的数据中心容量,但发电量和电网输送量却没有相应增长。我们预测,美国将在五年内出现电力短缺,这将限制人工智能的部署。目前,美国的可用电力远落后于中国,仅靠市场力量无法解决这场危机(参见图4)。

图片
云到边缘的转变:目前,云端几乎是现代人工智能算法运行的唯一途径。我们预测,未来将出现一种根本性的分布转变,即前沿模型将被规模更小、更专业的模型(参数量小于200亿)所取代,这些模型针对特定任务进行了优化。由于资源需求较低且效率更高,这些模型将从云数据中心迁移到边缘和终端用户应用,例如自动驾驶汽车、机器人和消费电子设备。这种分布转变还将增加各种定制芯片的数量。

人工智能驱动的商业模式:虽然具体的赢家仍难以预测(类似于1998年前后的互联网),但我们预计未来十年内将出现多种成功的AI驱动商业模式。如今的推荐系统已经成熟;自动驾驶汽车、机器人、智能体AI和客户服务自动化等领域也展现出巨大的发展潜力。

竞争格局:跨行业基准和共享基础设施将日益决定人工智能部署领域的国家和全球竞争力。效率提升1000倍的成果将在全球技术生态系统中广泛共享,而不仅仅局限于美国。然而,电力容量限制带来了竞争风险。由于美国电力预算有限,即使采用效率相同的技术,竞争对手也可能拥有十倍以上的推理能力。

超越地面基础设施:天基人工智能计算代表着长期人工智能基础设施设计中一个新兴且尚未充分探索的方向。业界正在积极考虑的概念设想在轨道或近地空间平台上运行,这些平台拥有丰富的太阳能,且散热遵循不同的物理约束。虽然此类系统不太可能取代地面数据中心,但它们为能源充足但延迟受限的计算、容错自主运行、抗辐射人工智能硬件以及容错学习和推理流程等领域开辟了新的研究机遇。学术研究可以在定义适用于这些环境的架构、算法和控制策略方面发挥关键作用,包括间歇执行、高度自主性和物理感知系统优化。随着人工智能基础设施规划延伸至2035年,应将天基和非地面计算视为互补平台,以检验我们对能源、可靠性和系统设计的假设。

潜在障碍、陷阱和解决方案

  • 基础设施瓶颈:美国发电和电网容量不足以支持数十至数百吉瓦的新数据中心需求,再加上审批流程可能需要数年时间,而全球竞争对手的行动速度更快。
解决方案:政府立即投资替代能源,包括部署期为 5-10 年的小型模块化反应堆 (SMR);简化数据中心和能源基础设施的监管框架;积极开展公众参与,以争取对核能和可再生能源部署的支持。

  • 生态系统碎片化:硬件、软件和模型之间互操作性不足,造成了生态系统的碎片化;计算机工程、系统和人工智能领域各自独立的学科框架阻碍了整体解决方案的实现。
解决方案:跨行业基准;标准化的跨堆栈性能测量;多方利益相关者论坛,以开发共享基础设施;政府资助的研究,要求在整个堆栈中而不是各个层进行协作。

  • 激励机制错位:学术界往往缺乏解决实际问题的动力,而产业界则倾向于在现有范式内进行渐进式改进。
解决方案:重塑学术激励机制,进一步重视实用工程和系统级贡献;建立行业赞助的持续合作关系,使研究与实际挑战相契合;达成大学与云平台的集体协议,实现访问权限的民主化。

  • 过度重视前沿模型:对 AGI 规模的前沿模型的过度关注,分散了人们对规模较小、专业化、以边缘为中心的模型的注意力,而这些模型可能带来近期价值和更广泛的应用。
解决方案:专门针对高效小型模型(适合本地硬件的模型)的研究经费;强调部署可行性的基准测试,而不仅仅是标准任务的性能;对风险投资进行边缘部署机会方面的教育。

  • 验证挑战:如果没有实际的库、仿真工具和测量数据,就无法验证新的硬件设计方法;学术界缺乏工业规模的基础设施;仿真工具与现实世界的条件不符。
解决方案:行业共享匿名测试和测量数据;政府资助的“仿真高速公路”通过真实系统进行验证;持续的行业合作伙伴关系,提供对生产环境的访问权限。

  • 人才和知识缺口:美国科学和工程人才不足以支撑当前的增长;限制性的移民政策有可能失去构成领先科技公司员工主体的国际人才。
解决方案:制定吸引和留住来自世界各地(包括中国、印度和欧洲)顶尖人才的移民政策;开展多所大学合作,汇集专业知识;推行产学研轮岗,实现知识的双向转移。

  • 摩尔定律终结的风险:随着丹纳德缩放定律的终结,我们大多只能横向扩展(增加芯片数量),而不能纵向扩展(提高芯片速度),这加剧了功耗问题,并限制了传统方法带来的效率提升。
解决方案:算法、软件和专用硬件的协同设计;减少数据移动的分层存储系统;3D 集成、内存计算或近内存计算,以及对超越 CMOS 缩放的新型计算范式的研究。

十年后,成功意味着什么?

成功意味着在电力危机变得无法克服之前解决它,实现预期的效率提升以推动变革性应用,并通过多方协调的行动维护美国的竞争力和公众信任。成功还包括开源工具、共享基准和易于使用的基础设施,使大学、初创企业和小型机构能够为人工智能创新做出有意义的贡献。更多详情请见下文。

电力危机得以解决:通过多元化的能源基础设施(包括小型模块化反应堆和替代能源)实现可持续的数据中心扩展,并简化审批流程,从而在保持环境责任的同时实现快速部署。

效率提升:人工智能效率提升1000倍,这将从根本上改变人工智能流量从云端到边缘的分配格局。大量人工智能工作负载将由可部署在自动驾驶汽车、机器人和消费级设备(例如AR/VR头显)上的专用小型模型承担。

蓬勃发展的跨领域生态系统:学术界、产业界、风险投资界和政府之间建立互利共赢、富有成效的关系。多方利益相关者论坛推动共享基础设施(例如“仿真高速公路”)、先进的基准测试、开源工具和协调一致的研究,从而将短期产业需求与长期学术创新相结合。

美国竞争优势:尽管全球在效率方面取得了共同进步,但美国拥有足够的电力产能和人才储备,可以在人工智能和硬件能力以及创新速度方面与竞争对手匹敌甚至超越他们。

公平获取:开源工具、跨行业基准,以及在小型但功能强大的模型方面取得更多进展,以便更多参与者(而不仅仅是资金雄厚的实验室和超大规模企业)能够有意义且可持续地为人工智能和硬件开发的前沿做出贡献。

蓬勃发展的AI驱动型经济:一个繁荣的AI驱动型经济将依靠产学研合作和政府持续合作,而非孤立的短期发展。自动驾驶汽车、机器人、智能体AI以及其他尚未被构想的领域将涌现出多种成功的商业模式和应用,创造可与互联网在1998年后的变革相媲美,甚至最终超越其带来的广泛经济价值。

最终,成功与否将取决于能否在现实世界的环境(科学、工业和社会)中大规模部署智能系统——在这些环境中,跨层协同设计能够使人工智能系统高效、值得信赖、适应性强,并符合人类和环境的限制。

针对学术界、产业界、政府和社区的建议行动项目

政府:投资能源基础设施,包括小型模块化反应堆(SMR)等替代能源;简化数据中心许可流程;现在就投资能源和基础设施研究(5-10 年);并制定政策,确保现有的大型数据中心(最初并非为人工智能而设计)不会被落下,并能有效地重新利用以支持人工智能工作负载。

已有充分证据表明,每投入 1 美元用于研发,就能为经济带来大约 5 美元的回报。15对芯片和系统堆栈的大规模、多所大学合作研究进行战略性投资,例如开源EDA工具和通用模块化架构模拟器,可以显著放大这种影响。与此同时,应促进大学与云服务提供商之间的集体谈判,以提高访问效率;创造公众参与和知情讨论的机会;并解决能源基础设施扩张带来的环境影响,同时强调核电站和数据中心开发相关的劳动力和就业机会。此外,还应制定政策,以维持或加强美国在吸引全球科学和工程人才方面的领先地位。几十年来,美国成功地从中国、印度和欧洲等地区吸引了顶尖人才,以支持其领先科技公司的劳动力队伍,保持这一优势至关重要。

大学:与美国国家科学基金会 (NSF) 或能源部 (DOE) 等政府机构合作,共同协商云合作伙伴关系,而不是建设单独的、很快就会过时的设施;将研究重点放在开源 EDA 等生态系统赋能工具上;建立学术激励机制以促进产业合作;专注于长期颠覆性算法研究,而不是渐进式研究;促成多所大学就重大挑战开展合作,以汇集资源和跨学科专业知识。

行业:考虑赞助和指导学术研究,使其更好地与行业问题接轨,并专注于解决关键挑战。参与学术委员会,重视实践性工作;提供超越一次性资助的长期合作关系;通过实际实验验证仿真工具。公开测试和测量数据以及高级基准测试。62这有助于学术界验证其研究成果。创建跨行业基准,以更好地推动人工智能硬件和软件的研发。

社区:在学术界、产业界、风险投资公司和政府之间建立多方利益相关者论坛,以开发共享基础设施,例如“仿真高速公路”,用于探索新的架构。

结论与行动呼吁

未来十年将决定人工智能能否从如今广泛应用的数字工具演变为支撑全新应用领域的基石技术平台。这些应用领域包括机器人、自主基础设施、智能制造和具身智能体等物理人工智能系统,以及科学发现、医疗保健和生物医学研究、气候和能源系统、先进材料设计以及大规模数字基础设施等领域的突破。实现这一转型远非简单地扩展模型规模或部署更密集的计算资源所能及。人工智能必须朝着效率更高、更值得信赖、更易于部署于云端、边缘和现实世界环境的方向发展。实现这一愿景需要算法、硬件架构和系统软件之间的深度协同设计。因此,“人工智能+硬件2035”愿景呼吁各领域携手合作,重新定义“扩展”的含义——在降低能耗、成本和系统复杂性的同时,提供更强大的智能、更强的适应性和更显著的实际影响。

应对这一挑战需要人工智能和硬件通过深度跨层协作以及对系统设计的根本性重新思考而共同演进。通过整合智能的物理、算法和社会维度,我们可以实现变革性的成果:训练和推理效率提升1000倍,设计效率显著提高,并建立一个能够推动科学和社会进步的、具有韧性和可持续性的人工智能基础设施。这项工作必须将以人为本的伦理原则——安全、透明、问责、公平和社会责任——作为首要的设计约束,而非事后考虑。实现这一目标不仅是一项技术目标,更是一项责任,即确保人工智能的发展造福人类,同时最大限度地减少对环境的影响。

要取得实质性进展,学术界、产业界和政府必须采取协调一致、目标明确的行动。学术界必须发展基础理论、抽象概念、基准测试和开源平台,以实现严谨的人工智能与硬件协同设计,同时培养精通算法和系统层面的下一代研究人员。产业界必须将这些进展转化为可扩展的、可用于生产的平台,涵盖云端、边缘和物理人工智能系统,并投资于大规模部署、可靠性工程和实际应用验证。政府必须推动长期、高风险的研究;维护共享基础设施,例如先进的计算测试平台;协调跨部门优先事项;并培养包容性的人才储备,以扩大人工智能创新领域的参与度。当这些部门协同行动时,他们就能构建出不仅更智能、更节能,而且更可靠、更安全、更具社会责任感的计算系统。

本质上,人工智能和硬件必须作为一个一体化的生态系统共同演进,在提升能力、效率和可信度的同时,始终立足于人类需求和社会背景。这不仅仅是一个技术议程,更是一次重新定义智能构建和部署方式的千载难逢的机遇。通过持续的合作、大胆的投资和以原则为导向的创新,人工智能与硬件的协同设计运动能够定义下一个计算时代——在这个时代,智能不仅更加强大,而且更加高效、可靠,并与人类的长远利益相契合。

为实现这一愿景,我们提出以下建议行动方案。

1、建立专门的 AI+HW 协同设计和协同开发计划,将硬件提升为下一代 AI 革命的一流驱动力,而不是将其视为下游优化层。

2、启动一项国家级人工智能+硬件计划(例如,由美国国家科学基金会牵头,美国国防高级研究计划局、能源部和国立卫生研究院参与),重点开展跨层研究,涵盖算法、架构、系统和应用,解决从模型到芯片的整个人工智能堆栈问题。

3、创建与 NAIRR 精神类似的共享 AI+HW 基础设施和资源计划,为学术界提供先进的计算、新兴加速器、芯片原型平台和系统级测试平台,这些对于有意义的 AI+HW 研究至关重要。

4、加强产学研合作机制,包括联合资助研究中心、联合奖学金、访问学者计划和共享试验平台,让产业界作为积极的利益相关者参与其中,而不仅仅是外部顾问。

5、向人工智能+硬件研究所或中心发出征集令,以 JUMP 等成功项目为蓝本,制定长期资助计划、明确的转化目标和强大的劳动力发展计划。

6、投资于人工智能+硬件人才队伍的培训和教育,支持跨学科课程、使用真实硬件平台进行实践培训,以及对人工智能研究人员进行系统和硬件方面的交叉培训,对硬件研究人员进行现代人工智能方法方面的交叉培训。

7、在资助的研究中,应优先考虑系统级评估指标,包括每焦耳智能、智能效率、数据传输效率、实际应用、稳健性和可部署性,而不是仅仅依赖模型准确性或硬件峰值性能。

8、要解决学术界和产业界之间日益扩大的资源获取差距,就要确保公共资助的研究人员能够公平地获得大规模计算、先进的硬件平台和真实的数据集。

9、鼓励跨机构协调(例如,美国国家科学基金会、国防高级研究计划局、美国国立卫生研究院、美国能源部),使人工智能和硬件投资与国家在科学发现、医疗保健、能源、安全和物理人工智能系统方面的优先事项保持一致,包括探索与新兴的能源部计划(如“创世纪任务”)开展战略合作。

10、将此报告及其 arXiv 版本作为动态参考,收集持续的社区意见,并指导人工智能与硬件协同设计领域的未来征集、政策方向和协调资助计划。

11、与专业协会(ACM、IEEE、USENIX、AAAI、ASME 等)合作,通过社区建设、标准制定和宣传倡导,帮助推进这些可操作的项目。

12、利用本报告,向政策制定者和立法者宣传人工智能与硬件协同设计对国家竞争力和社会影响的战略重要性。

13、与领先的行业伙伴携手合作,分享这一愿景,建立战略联盟,并开展符合共同利益的联合项目。

更多关于 行业事件的文章

  • 行业事件

    光刻机巨头,轰然“倒塌”

    By

    来源:半导体行业观察 作者:L晨光 近日,日本光学巨头尼康(Nikon)发布了其历史上最为惨烈的亏损预警——预计2025财年将出现850亿日元的巨额亏损,创下公司自1917年创立以来的百年最差...

  • 行业事件

    困在“活动”里的商场:越热闹,越迷茫

    By

    来源:惊蛰研究所 作者|初夏 从二次元“痛楼”的盛大庆生、coser巡游的破壁狂欢,到手作市集升腾的烟火气、咖啡节弥漫的醇香,再到宠物交友会流露的治愈瞬间……如今的商业空间,仿佛一座永不落幕的...

  • 行业事件

    ARM的AI叙事:AGI路径与CPU复兴

    By

    来源: 未尽研究  作者:未尽研究 在AI叙事中,GPU一度吞噬了一切,但那些曾被边缘化的角色,逐步重新成为瓶颈。正如黄仁勋反复强调的那样,CPU已经成为限制英伟达“AI工厂”吞吐token速...

  • 行业事件

    中国独角兽十二年全景图谱:805家企业的诞生与退场

    By

    来源:IT桔子 作者:Judy 截至2025年底,IT 桔子记录,中国创投市场累计诞生了805家估值超10亿美元的独角兽企业。这是一个创造神话的数字,但更是一个充满周期的故事——其中336家已...

  • 行业事件

    塑料包装涨、物流费涨、生鲜成本涨:谁在为油价上涨买单?

    By

    来源:灵兽 作者:楚勿留香 零售企业如何应对油价上涨 “一是,不要存那么多货,高进高出,低进低出,保持合理的利润;二是,优化配送线路,从集约化管理方面去做一些调整。”谈及零售企业如何应对油价上...

To Top