5月7日,2025联想创新科技大会(Tech World)在上海世博中心举行,本届大会以“让AI成为创新生产力”为主题,聚焦混合式AI,从终端到云端、从个人到企业,展示一系列创新技术和全新成果。在下午“智能云与智能体技术创新论坛”上,上海交通大学计算机学院陈全教授发表了题为《AI驱动下的智能云架构与系统设计》的演讲,深入探讨了AI技术与智能云架构的融合以及与联想智能云的合作。
在“智能云与智能体技术创新论坛”上,陈全教授指出,智能云并非单纯的学术概念,而是涉及学术界与产业界的深度合作。他将智能云的特点归纳为“智能”和“云”两个维度,强调为了实现智能云,需要学术界和产业界的共同配合。学术界负责理论研究和技术预演,产业界则通过产学研合作将技术落地并提供反馈。陈全教授对“Cloud for AI”和“AI for Cloud”进行了分享,前者强调云平台对AI应用的支持,后者则利用AI技术提升云平台的智能化水平。

陈全教授进一步指出,在Cloud for AI方面,随着AI应用的普及,云平台的负载逐渐从传统的互联网应用转变为多样化的AI应用。为了高效支持这些AI应用,云平台需要满足一系列新的需求:
l异构加速器管理:未来的AI负载将涉及多种计算模式,如稠密计算、动态计算和稀疏计算等,这要求云平台能够有效管理各种异构加速器(如GPU、NPU等),实现资源的隔离与共享。
l资源池化与共享:云平台需要通过软件定义的资源池化结构,实现资源的快速重新配置,以适应不断演进的智能计算负载,同时解决池化后性能受损的问题。
l并行机制优化:针对AI的多种并行模式(数据并行、模型并行、流水线并行等),云平台需根据硬件互联拓扑选择合适的并行方式,以提升整体性能。
l全局协同编排:在多个应用同时运行时,云平台应通过混合动态的全局编排,提高平台吞吐量,同时确保各应用性能不受损。
而在AI for Cloud方面,AI技术不仅服务于云平台上的应用,还可以用于提升云平台本身的智能化水平:
l细粒度资源管理:由于用户往往难以准确预估应用所需的资源量,导致资源浪费和性能波动。通过AI技术,可以捕捉用户资源需求的时空波动,实现更加细粒度的资源管控。
l资源用量预测与自动混合扩展:利用时间序列分析和多种AI模型,自动预测资源用量,选择最佳模型进行资源调度,实现自动混合扩展,快速调整资源分配。
l效率提升与成本优化:通过AI技术,显著降低调度开销,减少调度数量40%,改善服务质量,降低典型应用延迟30%以上,节省20%-60%的整体系统资源分配。(数据来源于实验室环境)

陈全教授还分享了上海交通大学与联想智能云在智能云领域的合作成果,双方通过产业界提供技术难题、学术界进行理论研究和原型设计的方式,共同推动智能云技术的发展。在“Cloud for AI”方面,双方正在探索面向未来AI负载的云平台形态,包括体系结构设计、加速器管理、并行机制优化等;在“AI for Cloud”方面,双方合作使用AI技术进行超级细粒度的资源管理,提高资源使用效率。
陈全教授表示,“通过联想智能云的平台部署和持续反馈,团队能够不断改进技术,实现AI与智能云的深度融合,为产业升级提供新的动力。”