OpenVINO™ 2025.0 正式发布！DeepSeek 支持、FLUX.1 图像生成、英特尔® NPU 加速全面升级

生成式AI（GenAI）在模型质量与应用范围上持续爆发式增长，DeepSeek 等顶尖模型已引发行业热议，这种势头预计将在 2025年延续。本次更新聚焦性能提升、更多生成式AI 模型的支持，并针对英特尔®神经处理单元（NPU）推出关键优化。让我们来一探究竟吧！

英特尔开发人员专区

2197人浏览 · 2025-02-13 12:12:04

英特尔开发人员专区 · 2025-02-13 12:12:04 发布

作者 | 武卓英特尔 OpenVINO™ 布道师

新年快乐！2025年首个 OpenVINO™ 版本正式发布
生成式AI（GenAI）在模型质量与应用范围上持续爆发式增长，DeepSeek 等顶尖模型已引发行业热议，这种势头预计将在 2025年延续。本次更新聚焦性能提升、更多生成式AI 模型的支持，并针对英特尔®神经处理单元（NPU）推出关键优化。让我们来一探究竟吧！

新增图像生成场景与模型支持

OpenVINO™ 2025.0 版本正式支持 FLUX.1 图像生成模型（含Dev与Schnell变体），可在英特尔® CPU/GPU 上通过 GenAI 流水线运行。开发者现可通过 Optimum-Intel 导出 Flux 模型，并结合 Text2ImagePipeline 生成图像。针对 Flux 模型对精度变化非常敏感的特点，我们进行了深度优化，确保图像生成性能与准确度兼得。

LoRA适配器：模型定制利器

自前期版本起，OpenVINO™ 已支持基于 Safetensor 文件的 LoRA 低秩适配技术，无需重新编译即可动态切换 LoRA 适配器，从而快速方便的生成不同定制化风格的图像。本次更新进一步扩展至 Flux 模型家族，开发者可直接从 Hugging Face Hub 下载适配器，通过 GenAI 的 Text2ImagePipeline 快速实现风格定制。

示例：LoRA 增强的 FLUX.1-Dev 图像生成效果

下图展示了 INT8 量化版 FLUX.1-dev 模型在应用 Yarn 风格 LoRA 前后的对比（提示词："albert einstein, yarn art style"，初始种子=420，迭代次数=20）：

图1：使用 INT8 量化的 FLUX.1-dev 模型，应用 LoRA 适配器前后的"albert einstein, yarn art style"艺术风格生成效果对比

新场景支持：Image2Image 与 Inpainting

新增 Image2Image 与 Inpainting流水线（预览版），解锁更可控的创作方式：

Image2Image：以图像+文本为输入生成新图像，提升结果可控性；
Inpainting：通过掩码图像替换输入图像的指定区域，支持局部内容再生。

两种流水线均兼容 LoRA 适配器，满足定制化需求。

文本生成场景优化

本次新版本在 LLMPipeline API 中引入了对提示词查找解码的预览支持，这是对推测解码的简化，它在输入提示词本身中用直接查找机制取代了传统的草稿模型。这有助于在具有高相似性的请求的情况下显著减少生成延迟。例如，通过对一组文档的问答可以观察到性能优势，因为答案将根据作为提示词本身一部分的文档来生成。

如我们的示例所示，只需对 LLMPipeline 中的代码进行很小的修改，即可启用此功能。总结来说，您需要将提示查找作为流水线中的一个参数启用，并修改生成配置以添加两个重要参数：在提示词中查找多少 token 数以及匹配后取多少 token 数。

生成过程中的内存使用是运行应用的一个重要考虑因素，因为 LLM 权重非常占用内存。KV Cache 代表了额外的内存消耗，并且可能会增长得相当大。我们引入了 KV Cache 的压缩作为一种减少内存消耗的技术，在这个版本中，我们默认在 CPU 上启用它。为了确保压缩的准确性，我们引入了非对称 INT8 压缩，被证明是总体来说最准确的压缩方式。如果需要，INT4 压缩也可作为进一步减少内存消耗的选项。在未来的版本中，我们计划启用更多的压缩技术，请持续关注。

另外，我们一直在努力支持和验证最新的模型，包括 Mistral-7B-Instruct-v0.2、Qwen2.5，当然我们也支持基于 LLama 和 Qwen 架构的 DeepSeek 蒸馏模型。您可以探索我们的新的使用 DeepSeek-R1 蒸馏模型进行 LLM 推理的 Notebook 代码示例，并查看下面与 Intel®Core™Ultra 200V GPU 上的 DeepSeek-R1-Llama-8b 模型的对话：https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/deepseek-r1

点击观看视频

通过 torch.compile 支持英特尔® NPU

2025.0 版本首次实现 NPU 加速支持，开发者可通过 PyTorch 的 torch.compile 接口调用英特尔 NPU 算力。OpenVINO™ 作为 torch.compile 生态系统中的编译器已经面世一段时间了。它已经在 CPU 和 GPU 上得到支持，并且在性能方面非常接近原生 OpenVINO™ 推理。在 2025.0 版本中，我们将推出对 Intel NPU 作为推理设备的预览支持。这包括对 TorchVision、Timm 和 TorchBench 存储库中的300多个模型的支持。

启用方式非常简单，只需要增加如下两行代码：