2026-06-26 09:47:02 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍了如何利用IntelCPU内置的NPU通过OpenVINO工具部署大模型，解决了NPU算力闲置问题。作者详细演示了从环境配置、模型下载到服务集成的完整流程，使用OpenVINO-genai库在NPU设备上成功运行语言模型并接入Cherry-Studio界面。测试表明NPU虽算力有限但功耗优势明显，适合本地轻量级AI应用。 综合评分： 72 文章分类： 解决方案,AI安全,终端安全,云安全,其他

cover_image

让那个最没用的NPU也忙起来：通过openvino跑大模型

原创

一只岸上的鱼一只岸上的鱼

一只岸上的鱼

2026年6月23日 21:44 江苏

在小说阅读器读本章

去阅读

让那个最没用的NPU也忙起来：通过openvino跑大模型

缘起

看过很多电脑评测视频，都会有一句：这个cpu自带一个没什么用的npu……

就是这个：

我实在不信intel搞了这么多年真的一无是处，于是就想着，能不能通过openvino跑大模型？

挑选大模型

npu的算力其实并不大，想试试只能找他自己优化过的：https://huggingface.co/OpenVINO

就这个吧：

安装openvino

# 创建一个虚拟环境
conda create -n vino python=3.13

# 激活虚拟环境
conda activate vino

# 安装openvino
pip install --upgrade pip
pip install openvino openvino-genai

参考官方文档：openvino 安装

特别注意：只能通过pip安装，不能通过conda，因为conda环境中不包括npu的插件，如官方文档的下图：

下载大模型

抱脸下载太慢了，好在在魔搭找到了镜像：

不知道二者差异的，推荐刚写的：

Hugging Face vs ModelScope：两大开源模型平台深度对比与高效下载指南

小试牛刀

直接用模型介绍页面的代码试试：

import&nbsp;openvino_genai

model_path =&nbsp;"D:\\model\\openvino"

device =&nbsp;"NPU"
pipe = openvino_genai.LLMPipeline(model_path, device)
config = openvino_genai.GenerationConfig()
config.max_new_tokens =&nbsp;25600

history = openvino_genai.ChatHistory()
history.append({"role":&nbsp;"system",&nbsp;"content":&nbsp;"You are a helpful assistant."})

def&nbsp;streamer(subword):
&nbsp; &nbsp;&nbsp;print(subword, end='', flush=True)
&nbsp; &nbsp;&nbsp;return&nbsp;False

while&nbsp;True:
&nbsp; &nbsp;&nbsp;try:
&nbsp; &nbsp; &nbsp; &nbsp; prompt =&nbsp;input('\nquestion:\n')
&nbsp; &nbsp;&nbsp;except&nbsp;EOFError:
&nbsp; &nbsp; &nbsp; &nbsp;&nbsp;break
&nbsp; &nbsp; history.append({"role":&nbsp;"user",&nbsp;"content": prompt})
&nbsp; &nbsp; result = pipe.generate(history, config, streamer)
&nbsp; &nbsp; history.append({"role":&nbsp;"assistant",&nbsp;"content": result.texts[0]})
&nbsp; &nbsp;&nbsp;print(f"\nanswer:\n{result.texts[0]}")

看看效果：

速度还可以，第一个token有点慢，后面速度跟上阅读不难。

启动服务，接入Cherry-Studio

直接问ima，他给我推了一个star为0的项目：

https://github.com/prskid1000/intel-npu-llm

不过还是能用的：

试试效果：

看看是不是npu在跑：

小结

NPU的算力还是很低的，但是对比GPU来，他的功耗也是很低的，笔记本上能省很多电，再等等小模型的发展，还是足够用的，至少是给本地龙虾聊聊天足够的。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：一只岸上的鱼一只岸上的鱼一只岸上的鱼《让那个最没用的NPU也忙起来：通过openvino跑大模型》