上图为Stable Diffusion利用 文本提示 : “ 穿盔甲超级可爱的毛绒绒猫战士 、 逼真 、 4K 、 超 细节、 V - Ray渲染 、 虚幻引擎 ” 生成的图像
基础模型正 在 席卷 AI 行业。基础模型 指基于 海量数据 进行 大规模训练的大型神经网络, 进而 能以高性能 表现 适应广泛的 后续 任务。 流行 的基础模型Stable Diffusion是 一个非常出色的从 文本到图像 的 生成式 AI 模型 , 能够基于任何文本输入 , 在数十秒内创作 出 逼真图像。Stable Diffusion 的 参数超过10亿,迄今为止主要限于在云端运行。 接下来我将 介绍 高通 AI Research 如何利用 高通 AI 软件栈 ( Qualcomm AI Stack ) 执行全栈 AI 优化,首次在 Android 智能手机上部署 Stable Diffusion 。
通过全栈
在 “ AI 首创 ” 博客文章 中,我 们提到 过高通 AI Research 不仅 在 开展 全新 AI 研究 工作,也率先 在商用终端上 展示 概念验证 , 为在 现实 世界中 的 技术 规模化应用 铺 平道路 。 我们的 全栈 AI 研究 指 跨应用、神经网络模型、算法、软件和硬件 进行 优化 ,并在 公司内 进行 跨 部门 合作。 针对 Stable Diffusion,我们从 Hugging Face 的 FP32 1-5 版本 开源模型 入手,通过量化、编译和硬件加速 进行 优化, 使其能 在搭载 第二代骁龙8移动平台 的手机上运行。
为了把模型从FP32 压缩 为INT8,我们使用 了 高通 AI 模型增效工具包 ( AIMET ) 的训练 后 量化 。 这是基于高通A I Research 创造的技术所开发的工具,目前已经 集成入 新发布的 Qualcomm AI Studio 中。通过让模型在 我们的 专用 AI 硬件上高效运行 , 并降低内存带宽消耗,量化不仅能够提高性能,还可以降低功耗。 自适应舍入 ( AdaRound ) 等 先进的 高通 AIMET量化技术能够在更低精度水平保持模型准确性,无需 进行 重新训练。这些技术能够 应用于构成 Stable Diffusion 的所有组件 模型,即基于Transformer的文本编码器、 VAE 解码器和 UNet 。 这对于 让 模型 适合于在终端上运行 至关重要。
高通 AI 软件栈将最优秀的 AI 软件产品集合到一个软件包中,帮助 OEM 厂商和开发者在我们的产品上创建、优化和部署他们的 AI 应用,充分利用高通 AI 引擎的性能。
对于编译,我们利用高通 AI 引擎 Direct 框架将神经网络映射 到 能够在目标硬件上高效运行的程序 中 。高通 AI 引擎 Direct 框架基于高通 Hexagon 处理器 的 硬件架构和内存层级 进行序列运算 ,从而提升性能并最小化内存溢出。 部分上述增强特性是 AI 优化研究人员与编译器工程团队共同合作 的成果 , 以此来提升 AI 推理 时的 内存管理。高通 AI 引擎中所做的整体优化能够显著降低 runtime 的时延和功耗, 而这一亟需的趋势也同样存在于 Stable Diffusion 上 。
凭借
紧密的
软硬
件协同设计,
集成
Hexagon
处理器的
高通
这一 全栈优化 最终让 Stable Diffusion 能够 在智能手机上运行, 在 15秒内执行 20 步 推理,生成一张512x512像素的图像 。 这是 在 智能手机上最快的推理 速度 ,能媲美云端时延 ,且 用户文本输入完全不受限制。
Qualcomm AI Studio 将我们目前的所有工具整合到一个全新的 GUI 中,同时还有可视化工具,以简化开发者的使用体验。
上图为Stable Diffusion利用 文本提示 : “ 野外河谷和山脉间的日式花园,高细节,数字插图, ArtStation ,概念艺术,磨砂,锐聚焦,插图, 戏剧性 的,落日,炉石,artgerm、 greg rutkowski 和 lphonse mucha 的艺术作品 ” 生成的图像
边缘 侧 AI 的时代已经到来
随着 AI 云 端大 模型开始转向在边缘终端上运行, 高通打造 智能网联边缘 的 愿景 正在我们眼前加速实现, 几年前 还被 认为不可能的事情正在成为 可能 。这很有吸引力,因为 通过 边缘 AI 进行 终端侧处理具有诸多优势,包括可靠性、时延、隐私、网络带宽使用效率和 整体 成本。
尽管 Stable Diffusion模型看起来 过于 庞大, 但 它编码了大量语言和视觉 相关 知识, 几乎可以 生成任何 能想象 到的 图片 。此外,作为一款基础模型,Stable Diffusion能做的远不止根据文字提示生成图像。基于 Stable Diffusion 的应用 正在不断增加 ,例如图像编辑、图像修复、风格 转换 和超分辨率 等,将带来切实的影响 。能够完全在终端上运行模型而无需连接互联网,将带来无限的可能性。
扩展边缘 侧 AI
在智能手机上运行Stable Diffusion只是开始。
让这一目标得以实现
的所有全栈研究和优化都
将
融入高通
AI
软件
栈。凭借高通
的
统一技术路线图,我们能够
利用单一
这意味着
为了让
Stable
Diffusion
在手机上高效运行
所做的
优化也可用于高通技术公司赋能的其他平台,比如笔记本电脑、XR头显和几乎任何其它终端。在云端运行
所有
AI
处理
工作
成本
高昂
,
因此
高效
的
边缘
侧
AI
处理
非常
重要。
由于
输入文本和生成图像
始终无需
离开终端
,
边缘
侧
AI
处理
能
在运行Stable Diffusion(和其它生成式
在高通,我们 在 基础研究 领域 实现突破 , 并跨终端和行业 进行 扩展, 以 赋能智能网联边缘。高通 AI Research 与公司 所有团队 通力合作,将最新 AI 发展 成果 和技术集成 到我们的 产品 之中,让实验室研究所实现的 AI 进步能够更快交付,丰富 人们 的 生活。