fix(vllm): set default top_p with vllm (#1078)

**Description** This PR fixes vllm when called with a request with an empty top_p Signed-off-by: Ettore Di Giacinto <mudler@localai.io>
2025-05-19 17:03:10 +00:00 · 2023-09-19 18:10:23 +02:00 · 2023-09-19 18:10:23 +02:00 · 453e9c5da9
commit 453e9c5da9
parent 3a69bd3ef5
1 changed files with 3 additions and 1 deletions
--- a/extra/grpc/vllm/backend_vllm.py
+++ b/extra/grpc/vllm/backend_vllm.py
@ -49,11 +49,13 @@ class BackendServicer(backend_pb2_grpc.BackendServicer):
        return backend_pb2.Result(message="Model loaded successfully", success=True)

    def Predict(self, request, context):
+        if request.TopP == 0:
+            request.TopP = 0.9
+
        sampling_params = SamplingParams(temperature=request.Temperature, top_p=request.TopP)
        outputs = self.llm.generate([request.Prompt], sampling_params)

        generated_text = outputs[0].outputs[0].text
- 
        # Remove prompt from response if present
        if request.Prompt in generated_text:
            generated_text = generated_text.replace(request.Prompt, "")