如何在 VLLM 部署后使用 API 直接传递视频进行推理？ #742

XyWzzZ · 2025-02-08T08:54:23Z

我在使用 VLLM 部署 Qwen2-VL-72B-Instruct，并尝试通过 API 进行视频推理。目前的 API 调用方式如下：

`openai_api_key = "None"
openai_api_base = "http://xxxxxx/v1"

client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)

chat_response = client.chat.completions.create(
model="Qwen2-VL-72B-Instruct",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": [
{"type": "video_url", "video_url": {"url": "https://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/baby.mp4"}},
{"type": "text", "text": "请描述这个视频的具体过程"},
]},
]
)
`
问题
1、目前 API 允许传递 video_url，但是否支持直接上传视频文件而不依赖外部 URL？
2、如果不支持，是否有官方推荐的方式来直接传递本地视频文件进行推理，而不是手动拆帧？
3、在 VLLM 部署环境下，是否需要特定的配置或参数才能使 API 识别并处理视频输入？
感谢解答！🙏

948024326 · 2025-02-10T01:35:49Z

同问+1

gymbeijing · 2025-02-10T05:54:56Z

你好，可以问下你的Python版本，Pytorch版本和CUDA版本吗？我也正在部署VLLM，但遇到版本不匹配。

python -m xformers.info
WARNING[XFORMERS]: xFormers can't load C++/CUDA extensions. xFormers was built for:
PyTorch 2.5.1 with CUDA 1201 (you have 2.5.1+cu121)
Python 3.10.15 (you have 3.10.16)
Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
Memory-efficient attention, SwiGLU, sparse and more won't be available.
Set XFORMERS_MORE_DETAILS=1 for more details

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何在 VLLM 部署后使用 API 直接传递视频进行推理？ #742

如何在 VLLM 部署后使用 API 直接传递视频进行推理？ #742

XyWzzZ commented Feb 8, 2025

948024326 commented Feb 10, 2025

gymbeijing commented Feb 10, 2025 •

edited

Loading

如何在 VLLM 部署后使用 API 直接传递视频进行推理？ #742

如何在 VLLM 部署后使用 API 直接传递视频进行推理？ #742

Comments

XyWzzZ commented Feb 8, 2025

948024326 commented Feb 10, 2025

gymbeijing commented Feb 10, 2025 • edited Loading

gymbeijing commented Feb 10, 2025 •

edited

Loading