重磅发布 | OpenVINO™ 2025.2:全新模型支持、生成式 AI 流水线与性能全面升级
OpenVINO 2025.2 是我们今年的又一重要版本,持续推进在 Intel 硬件上释放 AI 性能的目标。我们由衷感谢开发者社区的支持,并已在着手为下一个版本打造更多令人期待的功能。
引言
人工智能正在不断重塑我们与技术的交互方式,从彻底改变客户服务的聊天机器人,到驱动自动系统的视觉模型。随着 AI 模型日益复杂和多样化,开发者面临着高效部署这些强大模型的持续挑战。因此,我们非常高兴地推出 OpenVINO 2025.2 —— 最新版本的 OpenVINO™ 工具包,旨在帮助开发者在英特尔硬件上无缝优化和部署模型。此次更新引入了对最新模型(如 Qwen3)、全新 AI 流水线以及多项性能提升,让先进的 AI 应用比以往任何时候都更易获取。无论您是在构建下一代 AI 应用,还是在优化现有 AI 工作负载,OpenVINO 2025.2 都为您提供了强大的基础设施,以高效地将 AI 能力部署到实际生产环境中。
新模型
本次发布引入了多个适用于不同生成式 AI 场景的新模型支持,包括最新发布的 Qwen3 以及其他大语言模型,如 Phi-4、Phi-4-reasoning 和 Mistral-7B-Instruct-v0.3。为了帮助您快速上手,这些模型已集成在我们的 GitHub LLM Chatbot Notebook 中,您可以在其中实践模型推理与 OpenVINO 的使用。此外,我们还支持扩散模型,如 SD-XL Inpainting 0.1 和 Stable Diffusion 3.5 Large Turbo,并提供基于 Stable Diffusion v3 与 OpenVINO 的图像生成示例。多模态大模型 Qwen2.5-VL-3B-Instruct 也已支持,并配有视觉语言助手(Visual Language Assistant)Notebook。
想了解各类主流 AI 模型的性能基准测试,欢迎访问 OpenVINO™ Model Hub,对比它们在 Intel® CPU、集成 GPU、NPU 及加速器上的表现,帮助您选择最适合的 Intel 硬件平台。
通过 Stable Diffusion v3 notebook 生成的图像,提示词为:“一只被困在装满彩色糖果玻璃罐里的浣熊,背景是蒸汽缭绕的鲜艳色彩。”
OpenVINO™ GenAI 中的新流水线
OpenVINO GenAI 提供简洁的 API,开发者仅需几行代码即可利用 OpenVINO™ Runtime 运行生成式 AI 模型。在 2025.2 版本中,我们预览引入了两条新流水线支持:
- 文本转语音(Text-to-Speech)
- 用于 RAG 场景的文本嵌入(Text Embedding)
GitHub 上提供了这两条流水线的 C++ 和 Python 示例。以下为文本转语音流水线的 Python 代码,展示其如何轻松应用于语音生成任务:
import openvino_genai
pipe = openvino_genai.Text2SpeechPipeline(model_dir, device)
result = pipe.generate("Hello OpenVINO GenAI", speaker_embedding)
speech = result.speeches[0]
# speech tensor contains the waveform of the spoken phrase
OpenVINO™ 模型服务器端点与模型管理
OpenVINO 模型服务器(OVMS)在本次版本中也带来了一些令人兴奋的新功能,进一步扩展了其能力。在预览阶段,新增的 图像生成端点 支持根据文本提示生成图像。现在,您可以在 OVMS 中运行优化后的 Stable Diffusion 和 Flux 模型流水线。
另一项重要更新是:通过 OVMS CLI 进行 模型管理,可直接从 Hugging Face Hub 自动下载 OpenVINO 模型。这意味着您可以仅用一条命令部署生成式流水线,并在无需额外脚本或手动操作的前提下管理模型。
欢迎查看 GitHub 上的 OVMS 图像生成演示,展示如何从 Hugging Face Hub 拉取模型并运行。
性能改进
长期以来,OpenVINO™ 利用了 KV 缓存 来在生成过程中存储和压缩键值对,以避免在每个新 token 推理时重复计算,从而显著减少计算开销和内存带宽使用,特别适用于长文本生成场景。在本次更新中,我们引入了 SnapKV 缓存,这是一种运行在 CPU 和 GPU 上的选择性 KV 缓存压缩方法,能够基于注意力模式智能选择保留的键值对,支持上下文感知选择、聚类保留策略以及按注意力头自适应优化,在保留模型推理能力的同时提高效率。压缩完成后,缓存会重新旋转位置编码,以确保注意力机制的正确执行。当启用 KV 缓存淘汰机制时,SnapKV 默认开启。
我们还宣布了对 LoRA 适配器 的进一步性能优化,可在内置 GPU 上为各类大语言模型(LLMs)、视觉语言模型(VLMs)和文本生成图像模型提供更快的推理速度。这将帮助开发者以更低的延迟和资源开销,针对具体业务场景快速定制基础模型。此次优化得益于 融合内核(Fused Kernel)实现 和 运算节点内存依赖关系优化。融合内核可将多个 LoRA 操作合并为一个执行单元,减少内存带宽需求和内核调用开销;而内存依赖关系优化则通过更高效的数据结构和调度逻辑来管理操作节点之间的内存资源,尤其对不需从内存池分配资源的节点提升尤为明显。
总结
OpenVINO 2025.2 是我们今年的又一重要版本,持续推进在 Intel 硬件上释放 AI 性能的目标。我们由衷感谢开发者社区的支持,并已在着手为下一个版本打造更多令人期待的功能。
现在就下载 OpenVINO 2025.2 吧!欢迎于 7 月 23 日 参加我们的 OpenVINO™ DevCon 2025,了解更多关于 “与 Hugging Face 共创卓越 AI 工具体验” 的精彩内容!
更多推荐
所有评论(0)