在modelscope上可以使用免费的CPU和限时的GPU啦,成功安装xinference框架,并部署qwen-1.5大模型,速度7 tokens/s 空闲的时候,会被删除掉。数据不会被保存!单次最长10个小时使用! # 安装xinf pip3 install xinference # 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com export XINFERENCE_MODEL_SRC=modelscope export XINFERENCE_HOME=/mnt/workspace/xinf-data xinference-local --host 0.0.0.0 --port 9997 启动方法: xinference launch --model-engine transformers --model-name qwen1.5-chat --size-in-billions 0_5 --model-format pytorch --quantization none 测试接口: curl -X 'POST' ' \ -H 'Content-Type: application/json' -d '{ model: qwen1.5-chat, messages: [ { role: user, content: 北京景点? } ], temperature: 1 }'
www.bilibili.com