
OpenVINO™ 2025.0 正式发布!DeepSeek 支持、FLUX.1 图像生成、英特尔® NPU 加速全面升级
生成式AI(GenAI)在模型质量与应用范围上持续爆发式增长,DeepSeek 等顶尖模型已引发行业热议,这种势头预计将在 2025年延续。本次更新聚焦性能提升、更多生成式AI 模型的支持,并针对英特尔®神经处理单元(NPU)推出关键优化。让我们来一探究竟吧!
作者 | 武卓 英特尔 OpenVINO™ 布道师
新年快乐!2025年首个 OpenVINO™ 版本正式发布
生成式AI(GenAI)在模型质量与应用范围上持续爆发式增长,DeepSeek 等顶尖模型已引发行业热议,这种势头预计将在 2025年延续。本次更新聚焦性能提升、更多生成式AI 模型的支持,并针对英特尔®神经处理单元(NPU)推出关键优化。让我们来一探究竟吧!
新增图像生成场景与模型支持
OpenVINO™ 2025.0 版本正式支持 FLUX.1 图像生成模型(含Dev与Schnell变体),可在英特尔® CPU/GPU 上通过 GenAI 流水线运行。开发者现可通过 Optimum-Intel 导出 Flux 模型,并结合 Text2ImagePipeline 生成图像。针对 Flux 模型对精度变化非常敏感的特点,我们进行了深度优化,确保图像生成性能与准确度兼得。
LoRA适配器:模型定制利器
自前期版本起,OpenVINO™ 已支持基于 Safetensor 文件的 LoRA 低秩适配技术,无需重新编译即可动态切换 LoRA 适配器,从而快速方便的生成不同定制化风格的图像。本次更新进一步扩展至 Flux 模型家族,开发者可直接从 Hugging Face Hub 下载适配器,通过 GenAI 的 Text2ImagePipeline 快速实现风格定制。
示例:LoRA 增强的 FLUX.1-Dev 图像生成效果
下图展示了 INT8 量化版 FLUX.1-dev 模型在应用 Yarn 风格 LoRA 前后的对比(提示词:"albert einstein, yarn art style",初始种子=420,迭代次数=20):
图1:使用 INT8 量化的 FLUX.1-dev 模型,应用 LoRA 适配器前后的"albert einstein, yarn art style"艺术风格生成效果对比
新场景支持:Image2Image 与 Inpainting
新增 Image2Image 与 Inpainting流水线(预览版),解锁更可控的创作方式:
-
Image2Image:以图像+文本为输入生成新图像,提升结果可控性;
-
Inpainting:通过掩码图像替换输入图像的指定区域,支持局部内容再生。
两种流水线均兼容 LoRA 适配器,满足定制化需求。
文本生成场景优化
本次新版本在 LLMPipeline API 中引入了对提示词查找解码的预览支持,这是对推测解码的简化,它在输入提示词本身中用直接查找机制取代了传统的草稿模型。这有助于在具有高相似性的请求的情况下显著减少生成延迟。例如,通过对一组文档的问答可以观察到性能优势,因为答案将根据作为提示词本身一部分的文档来生成。
如我们的示例所示,只需对 LLMPipeline 中的代码进行很小的修改,即可启用此功能。总结来说,您需要将提示查找作为流水线中的一个参数启用,并修改生成配置以添加两个重要参数:在提示词中查找多少 token 数以及匹配后取多少 token 数。
生成过程中的内存使用是运行应用的一个重要考虑因素,因为 LLM 权重非常占用内存。KV Cache 代表了额外的内存消耗,并且可能会增长得相当大。我们引入了 KV Cache 的压缩作为一种减少内存消耗的技术,在这个版本中,我们默认在 CPU 上启用它。为了确保压缩的准确性,我们引入了非对称 INT8 压缩,被证明是总体来说最准确的压缩方式。如果需要,INT4 压缩也可作为进一步减少内存消耗的选项。在未来的版本中,我们计划启用更多的压缩技术,请持续关注。
另外,我们一直在努力支持和验证最新的模型,包括 Mistral-7B-Instruct-v0.2、Qwen2.5,当然我们也支持基于 LLama 和 Qwen 架构的 DeepSeek 蒸馏模型。您可以探索我们的新的 使用 DeepSeek-R1 蒸馏模型进行 LLM 推理的 Notebook 代码示例 ,并查看下面与 Intel®Core™Ultra 200V GPU 上的 DeepSeek-R1-Llama-8b 模型的对话:https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/deepseek-r1
通过 torch.compile 支持英特尔® NPU
2025.0 版本首次实现 NPU 加速支持,开发者可通过 PyTorch 的 torch.compile 接口调用英特尔 NPU 算力。OpenVINO™ 作为 torch.compile 生态系统中的编译器已经面世一段时间了。它已经在 CPU 和 GPU 上得到支持,并且在性能方面非常接近原生 OpenVINO™ 推理。在 2025.0 版本中,我们将推出对 Intel NPU 作为推理设备的预览支持。这包括对 TorchVision、Timm 和 TorchBench 存储库中的300多个模型的支持。
启用方式非常简单,只需要增加如下两行代码:
结果因模型而异,因此建议您尝试使用自己的模型以查看性能的提升情况。同时我们建议在 Intel®Core™Ultra Series 2 及更高版本的平台上使用此功能。
总结
随着我们迎来激动人心的新的一年,生成式AI的潜力继续重塑我们的创造、工作和创新方式。
借助 OpenVINO™2025.0,我们提供了更多的模型覆盖、更快的推理性能和扩展的 Intel® NPU 支持。这只是一个开始——今年我们全年计划发布更多版本,请继续关注即将到来的更新!
更多推荐
所有评论(0)