今天在群内交流时,受到算想未来赵总的邀请,对其旗下的算想云进行使用。
根据其介绍,算想云(https://LLM.sxwl.ai)是 Serverless 大模型训推云服务,目标用户 ML 工程师、MLOps 工程师、AI 应用开发者。用户手册:https://tricorder.feishu.cn/wiki/TEnFwKhJIi5mzYkcVxacToxanYb
在我约2小时左右的试用后,我觉得其服务非常适合想进行大模型部署、微调但是更关注AI+业务流程落地而非如何折腾模型的用户。
进入首页是官方提供的模型仓库,截至本文发稿时,有53种大模型。
让我们尝试下快速部署模型并开展业务。点击对应模型后的“推理选项”根据你的业务需求,选择计算卡的型号和数量,点击开始部署。
可以看到推理服务的容器已经创建成功,正在等待其部署完成。
等待约2分钟,容器已经部署完成,可以开始对话聊天。
推理速度非常快,可能由于参数量的原因,对话表现并不好。像是RAG后的小模型一样。会带出微调数据中的原对话内容。
10分钟内,可以跑通自己部署一个模型服务。但是在我尝试多卡一键部署参数量较大的模型时,一直在deploying中,技术对接告知一键部署只有ziya和mistral通过了测试,其它的模型还在调整适配中。
干脆来尝试下平台提供的jupyterlab服务,自己部署并微调模型服务。仅使用平台提供算力支持。
点击侧边栏的开发实验室,点击创建jupyter实例,根据自己的需求设置jupyter配置,由于准备推理量化后的参数量大一点的模型,所以没有选择挂载官方提供的模型库中的模型。
点击进入jupyterlab,输入nvidia-smi查看显卡分配情况。可以看到,平台按要求分配了2张3090ti给我。环境创建的速度不错。
安装wget、创建训练用数据集此类内容不再赘述。
安装llama-factory,具体教程可以参考我前面的博文,或者点击其官方文档:https://github.com/hiyouga/LLaMA-Factory/blob/main/README_zh.md
wget --user-agent="Mozilla" https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2024.02-1-Linux-x86_64.sh
wget下载anaconda环境,并且我发现在sxwl的机器上如果不设置user-agent,会被wget都会拦截返回403。
安装教程请参考:https://zhuanlan.zhihu.com/p/459607806
安装好llama-factory的相关依赖。
-------------------完-------------------