Hi All,

我们的记录显示,您之前从英特尔下载了OpenVINO™ AI推理软件。我们很高兴的分享给您,OpenVINO™工具套件的新版本现已可用,您可以进行升级。

在此版本中,您将看到通过OpenVINOLLM持续提升LLM的性能,以支持生成式AI负载。

  下载最新版本:

主要亮点:

更多生成式人工智能(Gen AI)的支持和框架集成,最大程度地减少代码更改

  • 在CPU及GPU上支持的新模型:Phi-4, Mistral-7B-Instruct-v0.3, SD-XL Inpainting 0.1, Stable Diffusion 3.5 Large Turbo, Phi-4-reasoning, Qwen3 and Qwen2.5-VL-3B-Instruct。 Mistral 7B Instruct v0.3在NPU上也已支持。
  • 预览支持:OpenVINO™ GenAI 新增对 SpeechT5 文本转语音(TTS)模型的推理支持,同时推出全新的 RAG 后端,为开发者提供简化的 API,显著降低内存占用并提升性能。
  • 预览支持: OpenVINO™ GenAI 提供了 GGUF 模型读取器,可无缝集成基于 llama.cpp 的大语言模型(LLM)。支持使用 Python 和 C++ 构建推理流程,加载 GGUF 模型、构建 OpenVINO 计算图,并在 GPU 上实现即时推理。目前已完成对主流模型的验证,包括:DeepSeek-R1-Distill-Qwen(1.5B、7B)、Qwen2.5 Instruct(1.5B、3B、7B)以及 llama-3.2 Instruct(1B、3B、8B)。

更广泛的LLM模型支持和更多的模型压缩技术

  • OpenVINO GenAI的LoRA适配器的进一步优化在集成显卡上带来改进的大语言模型、视觉语言模型以及文生图模型性能。开发者可以使用LoRA适配器可快速定制模型以应对特定任务
  • 对于 INT8 精度,CPU 的 KV 缓存压缩已默认启用,提供更低的内存占用,同时在精度上保持与 FP16 相当的水平。除此之外,相比于 INT8,它在支持 INT4 的大语言模型中可显著节省内存。
  • 使用英特尔® XMX脉动式平台优化英特尔® 酷睿™ Ultra 2系列处理器集成显卡以及英特尔® Arc™ B系列显卡的视觉语言模型以及混合量化图片生成模型性能,同时通过动态量化降低大语言模型首token延迟。

在云,边缘和本地设备上运行AI时,具有更强的可移植性和性能

  • 增强的 Linux* 支持,配合最新 GPU 驱动,适用于英特尔® 酷睿™ Ultra 2系列处理器内置 GPU(之前代号Arrow Lake H)的Linux*支持
  • OpenVINO™ 模型服务器现已推出适用于 Windows 的精简版 C++ 版本,通过前缀缓存机制提升长上下文模型的性能,并提供更小巧的安装包,无需依赖 Python。同时,现已支持 Hugging Face 模型。
  • 在神经网络压缩框架(NNCF)中实现了对ONNX模型的INT4无数据权重量化压缩支持
  • 通过对称量化和通道级量化,OpenVINO 现已支持在 Intel® Core™ 200V 系列处理器的 NPU 上运行采用 FP16-NF4 精度的模型(参数规模最高可达 80 亿),在保持高性能的同时提升了推理精度。

Important links:

Logo

为开发者提供丰富的英特尔开发套件资源、创新技术、解决方案与行业活动。欢迎关注!

更多推荐