2025.04.01: 一键执行:curl -L https://vllm.9700001.xyz/install.sh -o install.sh chmod +x install.sh bash install.sh 使用一键执行无需下载任何文件 修复了之前的一些问题,工作繁忙没有测试是否完全解决, 无需像之前下载文件解压等, 私信有点多,如果还是出现一些问题可以尝试源作者方案,编译源码与方法参考:https://github.com/Said-Akbar/triton-gcn5 2025.03.27: gitee下载地址: https://gitee.com/laugh-gitee/vllm-rocm github: https://github.com/Said-Akbar/vllm-rocm 安装推理框架前,请先保证目录硬盘大于200G 一键安装中途会要求重启一次,按照说明操作即可 张量并行需要使用双数卡,也就是2,4,6,8 张卡才能张量并行! 建议使用全新的ubuntu22.04系统进行安装、 进入 installsh 所在目录 进行安装 安装命令:chmod +x install.sh bash install.sh 十分之简单, 轮椅操作。 (上传文件,进入目录,安装命令一键安装,启动模型,完事) 4卡接口启动命令可以参考:ROCM_PATH=/opt/rocm PYTHONPATH=/opt/AMD/triton/python HIP_VISIBLE_DEVICES=0,1,2,3 TORCH_BLAS_PREFER_HIPBLASLT=0 PYTORCH_ROCM_ARCH=gfx906 vllm serve /opt/qwq-32b-q8.gguf --port 8001 --api_key 123456 --tensor-parallel-size 4 --quantization awq --dtype float16 --block-size 32 --max-num-seqs 64 --max-model-len 32768 其余的参数命令可以参考vllm官方文档
www.bilibili.com