在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B+vLLM教程

admin 2026-02-17 19:52:44 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 该文档详细介绍了在配备4块2080Ti显卡的Ubuntu22.04服务器上部署QwQ-32B大模型并使用vLLM框架提供推理服务的完整流程。内容包括系统依赖安装、从魔搭社区下载模型、配置Miniconda虚拟环境、安装vLLM及NCCL库,并给出了启动服务的具体命令参数。作者通过多个测试题验证了模型的基本推理能力,指出其存在过度思考导致GPU缓存占用高的问题,并发性能可能受限,但为低成本设备运行大模型提供了可行方案。 综合评分: 78 文章分类: AI安全,安全工具,解决方案


cover_image

在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程

灰帽安全

2026年2月14日 06:33 广东

以下文章来源于玩科技的舒 ,作者GeekyShu

玩科技的舒 .

Hey 未来创造者们!我是“玩科技的舒”,一个沉迷于用代码和脑洞撬动AI宇宙的硬核极客。记得“玩科技的舒”——全网同号哦!

QwQ 是 Qwen 级数的推理模型。与传统的指令调优模型相比,能够思考和推理的 QwQ 可以在下游任务中实现显著增强的性能,尤其是难题。QwQ-32B 是中型推理模型,能够实现与最先进的推理模型(如 DeepSeek-R1、o1-mini)相比的竞争性能。

在这篇文章中,我将详细介绍在Ubuntu 22.04服务器(4 x 2080Ti 22G)上部署和运行QwQ-32B服务的详细流程!

☞☞☞ 定制同款Ubuntu服务器 ☜☜☜

☞☞☞ 定制同款Ubuntu服务器 ☜☜☜

升级和安装相关的依赖

操作系统更新

sudo apt update && sudo apt upgrade

安装git-all

sudo apt install git-all

安装curl

sudo apt install curl

验证是否安装成功

curl --version

下载和安装git-lfs

curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs

下载模型

我们可以在huggingface和魔搭社区下载QwQ-32B模型,国内以魔搭社区为例:

打开模型的下载页面:https://modelscope.cn/models/Qwen/QwQ-32B/files

点击“下载模型”

复制下载链接:

git clone https://www.modelscope.cn/Qwen/QwQ-32B.git

在Ubuntu服务器中的指定位置打开一个终端窗口,将下载链接粘贴进去回车,系统将自动下载好所有的模型和配置文件!下面的案例中,我在disk1磁盘中专门新建了一个LLM的目录用来存放所有的模型,cd到这个目录之后,直接将下载命令粘贴进来回车,下载完成之后你可以在该目录中看到“QwQ-32B”这个模型文件夹。

模型大小有64G,所以下载的时间会比较漫长,取决于你的网速情况!我大概下载了一个小时!

安装miniconda(如果已经安装过了这一步可以省略)

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh

第二行命令输入之后,要一直按着“Enter”键阅读完它全部的license,知道出现了提示输入“yes”和“no”的输入框提示

我们直接输入“yes”进行确认!然后会然我们选择安装的路径,一般情况下我们直接按“Enter”键确认即可!

询问是否要初始化,直接输入“yes”确认

看到下面的“Thank you…”就标志着安装完成了!

激活conda模式

source ~/.bashrc

安装vLLM

新建一个单独的虚拟环境

首先要为vllm新建一个虚拟环境:

conda create -n vllm python=3.10 -y && conda activate vllm

安装vllm

继续在虚拟环境中执行下面的代码:

pip install vllm==0.7.3

安装NCCL(NVIDIA Collective Communications Library)库

安装与CUDA 12.x兼容的NCCL库,确保在使用CUDA进行加速计算时,可以利用NCCL提供的通信优化,运行下面这行代码

python -m cupyx.tools.install_library --library nccl --cuda 12.x

运行vllm server服务

在vllm虚拟环境激活的状态下,运行下面的vllm server命令:

vllm serve /mnt/disk1/LLM/QwQ-32B --served-model QwQ-32B --tensor-parallel-size 4 --max-model-len 32768 --dtype=half --trust-remote-code --gpu-memory-utilization 0.95 --max-num-seqs 5 --host=0.0.0.0 --port=4000

命令参数解析:

模型路径:/mnt/disk1/LLM/QwQ-32B

模型名称:–served-model QwQ-32B

显卡数量:–tensor-parallel-size 4

最大上下文长度:–max-model-len 32768

显存使用率:–gpu-memory-utilization 0.95

最大并发数:–max-num-seqs 5

运行成功之后你会看到vllm server给出了一个带端口号的IP地址和“Application startup complete.”的字样,证明已经运行成功了!

如果我们在任何一种webui调用这个api的话,就可以运行QwQ-32B的模型来进行推理了!下面以谷歌浏览器插件“Page Assist”调用QwQ-32B模型推理为例:

可以看得出来“QwQ-32B”模型的思考过程没有丢失标签,并且推理结果也是正确的!

推理速度也是比较快的,稳定在26.2tokens/s左右。不过跟deepseek-r1的蒸馏模型(比如DeepSeek-R1-Distill-Qwen-32B)相比,QwQ-32B模型存在明显的过度思考的问题,这会导致GPU KV cache的占有率迅速飙升,这意味着并发数可能会受到影响。

总结

测试结果:

第一题:3.9和3.11哪个更大?(✔)

第二题:1块钱一瓶可乐,两个空瓶可以再换一瓶可乐,假设你有20元钱,最多可以喝到几瓶可乐?(✔)

第三题:明天的昨天是昨天的哪天?(✔)

第四题:鲁迅为什么要打周树人?(✔)

第五题:冰箱里有10个鸡蛋,我敲了两个,煎了两个,吃了两个,还剩几个?(✔)

第六题:在平面四边形ABCD中,AB=AC=CD=1,angle ADC=30^{circ}, angle DAB =120^{circ}。将 triangle ACD 沿 AC 翻折至 triangle ACP,其中 P 为动点。求二面角 A-CP-B 的 余弦值的最小值。(✘)

第七题:一个汉字具有左右结构,左边是木,右边是乞。这个字是什么?只需回答这个字即可。(✘)

第八题:请用我给你的4个数字,通过加、减、乘、除、括号,组成一个运算,使得结果为 24。注意:数字需要全部使用我提供的数字:4468(✔)

总体来说表现还是十分亮眼的!但是比起满血版的deepseek-r1来还是有差距的!至于QwQ-32B和DeepSeek-R1-Distill-Qwen-32B相比究竟谁强谁弱,我们后面会专门做一期全面的测试!总而言之,QwQ-32B让我们在低成本的设备上运行大模型有了更多的选择!这是已经非常好的事!


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:灰帽安全 《在Ubuntu服务器4x2080ti(22G)上部署QwQ-32B + vLLM教程》

评论:0   参与:  0