参考来源:https://www.bilibili.com/read/cv27685652/
使用ChatGLM3-6B进行对话,支持连续对话
pip install protobuf transformers==4.30.2 cpm_kernels torch>=2.0 gradio mdtex2html sentencepiece accelerate
可能因为系统问题,无法安装成功(安装成功最后会有success),建议一个个安装,如果因为>=无法安装成功,建议尝试一下改成==
将 GLM3Prompt.py
放入 /comfyui/custom_nodes
下
Model | Seq Length | Download |
---|---|---|
ChatGLM3-6B | 8k | HuggingFace | ModelScope |
ChatGLM3-6B-Base | 8k | HuggingFace | ModelScope |
ChatGLM3-6B-32K | 32k | HuggingFace | ModelScope |
网盘地址:链接:https://pan.baidu.com/s/1p5j0gQu3Jw_xgdY_UkHtjA?pwd=ljsz 提取码:ljsz
将红圈部分改为模型的绝对路径,参考/root/ComfyUI/models/chatglm3-6b
根据自己实际情况填写
注意:默认从 Hugging Face Hub拉取模型
-
标准:模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存
self.model = AutoModel.from_pretrained(self.model_path, trust_remote_code=True, device='cuda')
-
如果你的 GPU 显存有限,可以尝试以量化方式加载模型(代码默认使用)
self.model = AutoModel.from_pretrained(self.model_path, trust_remote_code=True).quantize(4).cuda()
-
其他参考官方文档(mac、多卡、cpu)
https://github.com/THUDM/ChatGLM3/tree/main#%E4%BD%8E%E6%88%90%E6%9C%AC%E9%83%A8%E7%BD%B2
首次加载模型需要20s左右,不同长度的提示词模型效率不同,越长的提示词需要的时间不同。量化模型大约使用4g显存。默认开启即调用模型后释放显存,若提示词有修改重新调用模型。关闭后则模型一直缓存在显存中,有上下文功能,且多次调整提示词速度更快