当前位置：首页 > news >正文

vLLM框架本地布署Qwen3-32B模型 - yi

news 2025/9/17 3:24:58

vLLM框架本地布署Qwen3-32B模型

vLLM框架本地布署Qwen3-32B模型

先Conda虚拟环境创建，这里不再讲了，前面讲过。
激活环境
conda activate vllm_numpy_pytorch

下载完整模型库
modelscope download --model Qwen/Qwen3-32B

默认下载到: /home/admin1/.cache/modelscope/hub/models/

将vLLM服务启动命令修改为提供标准 OpenAI API 接口的形式

python3 -m vllm.entrypoints.openai.api_server \
--model /home/admin1/.cache/modelscope/hub/models/Qwen/Qwen3-32B \
--port 8018 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.7 \
--swap-space 16 \
--served-model-name Qwen3-32B \
--host 0.0.0.0 \
--trust-remote-code \
--max-model-len 8192

测试调用

curl -X POST "http://localhost:8018/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-32B",
"messages": [{"role": "user", "content": "介绍下杭州"}]
}'

903a4b5ac47eec17965f74d5ac1c26f3

http://www.wxhsa.cn/company.asp?id=430

相关文章：

项目管理软件中有哪些不同的模块以及如何导出其报告？

第十三届 TCCT 随机系统与控制专题研讨会暨2025年智能控制与计算科学国际学术会议（ICICCS 2025）

Kubernetes命名空间（Namespace）

linux安装python

【IEEE、电力学科品牌会议】第五届智能电力与系统国际学术会议（ICIPS 2025）

软工第一次作业

Microsoft 推出 .NET 10 RC 1

2025 第九届控制工程与先进算法国际论坛(IWCEAA 2025)

kotlin中的netty

JAVA反编译神器CFR

记录一下由于VS中qt的插件自动升级引发的编译问题

flutter右滑返回直接返回到native问题

如何用变量与函数实现随机生成数字交互？附完整教程

离散数学与结构 note

Linux系统简单源码安装NGINX版本1.28.0

终结“网络无助感”：Tenable CEO解析漏洞管理与安全心态

部分算法记录

Kubernetes资源管理方式

2025公众号排版工具深度测评报告：10款主流产品功能对比与场景化选择指南

即将举办2025年11月埃及汽配博览会埃及国际汽配展Autotech

生产搭建Hadoop

生产搭建Rabbitmq

【项目实战】基于i.MX8M Plus的人工智能小车（AGV导航、视觉避障、自动跟随、颜色识别、防跌落）有教程代码