当前位置: 首页 > news >正文

vLLM框架本地布署Qwen3-32B模型 - yi

vLLM框架本地布署Qwen3-32B模型


先Conda虚拟环境创建,这里不再讲了,前面讲过。
激活环境
conda activate vllm_numpy_pytorch

 

 

下载完整模型库
modelscope download --model Qwen/Qwen3-32B

默认下载到: /home/admin1/.cache/modelscope/hub/models/

 


将vLLM服务启动命令修改为提供标准 OpenAI API 接口的形式

python3 -m vllm.entrypoints.openai.api_server \
--model /home/admin1/.cache/modelscope/hub/models/Qwen/Qwen3-32B \
--port 8018 \
--tensor-parallel-size 8 \
--gpu-memory-utilization 0.7 \
--swap-space 16 \
--served-model-name Qwen3-32B \
--host 0.0.0.0 \
--trust-remote-code \
--max-model-len 8192

 

测试调用

curl -X POST "http://localhost:8018/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3-32B",
"messages": [{"role": "user", "content": "介绍下杭州"}]
}'

 

903a4b5ac47eec17965f74d5ac1c26f3

 

http://www.wxhsa.cn/company.asp?id=430

相关文章:

  • 项目管理软件中有哪些不同的模块以及如何导出其报告?
  • 第十三届 TCCT 随机系统与控制专题研讨会 暨2025年智能控制与计算科学国际学术会议 (ICICCS 2025)
  • Kubernetes命名空间(Namespace)
  • linux安装python
  • 【IEEE、电力学科品牌会议】第五届智能电力与系统国际学术会议(ICIPS 2025)
  • 软工第一次作业
  • 注释
  • Microsoft 推出 .NET 10 RC 1
  • 2025 第九届控制工程与先进算法国际论坛(IWCEAA 2025)
  • kotlin中的netty
  • 多态
  • 数学分析 I
  • 高等代数 I
  • JAVA反编译神器CFR
  • 记录一下由于VS中qt的插件自动升级引发的编译问题
  • flutter右滑返回直接返回到native问题
  • ck随笔
  • 如何用变量与函数实现随机生成数字交互?附完整教程
  • 离散数学与结构 note
  • Java基础
  • Linux系统简单源码安装NGINX版本1.28.0
  • 终结“网络无助感”:Tenable CEO解析漏洞管理与安全心态
  • 部分算法记录
  • Kubernetes资源管理方式
  • 2025公众号排版工具深度测评报告:10款主流产品功能对比与场景化选择指南
  • 即将举办2025年11月埃及汽配博览会埃及国际汽配展Autotech
  • 生产搭建Hadoop
  • JBT 10389-2014
  • 生产搭建Rabbitmq
  • 【项目实战】基于i.MX8M Plus的人工智能小车(AGV导航、视觉避障、自动跟随、颜色识别、防跌落)有教程代码