vLLM框架本地布署Qwen3-32B模型
先Conda虚拟环境创建,这里不再讲了,前面讲过。
激活环境
conda activate vllm_numpy_pytorch
下载完整模型库
modelscope download --model Qwen/Qwen3-32B
默认下载到: /home/admin1/.cache/modelscope/hub/models/
将vLLM服务启动命令修改为提供标准 OpenAI API 接口的形式
python3 -m vllm.entrypoints.openai.api_server \
--model /home/admin1/.cache/modelscope/hub/models/Qwen/Qwen3-32B \
--port 8018 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.7 \
--swap-space 16 \
--served-model-name Qwen3-32B \
--host 0.0.0.0 \
--trust-remote-code \
--max-model-len 8192
测试调用
curl -X POST "http://localhost:8018/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-32B",
"messages": [{"role": "user", "content": "介绍下杭州"}]
}'