fix(autogptq): do not use_triton with qwen-vl (#1985)

* Enhance autogptq backend to support VL models * update dependencies for autogptq * remove redundant auto-gptq dependency * Convert base64 to image_url for Qwen-VL model * implemented model inference for qwen-vl * remove user prompt from generated answer * fixed write image error * fixed use_triton issue when loading Qwen-VL model --------- Co-authored-by: Binghua Wu <bingwu@estee.com>
2025-03-10 22:43:59 +00:00 · 2024-04-10 18:36:10 +08:00 · 2024-04-10 18:36:10 +08:00 · 0004ec8be3
commit 0004ec8be3
parent d692b2c32a
1 changed files with 0 additions and 1 deletions
--- a/backend/python/autogptq/autogptq.py
+++ b/backend/python/autogptq/autogptq.py
@ -39,7 +39,6 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
                self.model_name = "Qwen-VL-Chat"
                model = AutoModelForCausalLM.from_pretrained(model_path, 
                    trust_remote_code=request.TrustRemoteCode,
-                    use_triton=request.UseTriton,
                    device_map="auto").eval()
            else:
                model = AutoGPTQForCausalLM.from_quantized(model_path,