fix(llama.cpp): enable cont batching when parallel is set (#1622)

Signed-off-by: Ettore Di Giacinto <mudler@localai.io>
2025-05-07 19:18:33 +00:00 · 2024-01-21 14:59:48 +01:00 · 2024-01-21 14:59:48 +01:00 · 697c769b64
commit 697c769b64
parent 94261b1717
1 changed files with 1 additions and 1 deletions
--- a/backend/cpp/llama/grpc-server.cpp
+++ b/backend/cpp/llama/grpc-server.cpp
@ -2465,10 +2465,10 @@ static void params_parse(const backend::ModelOptions* request,
    const char *env_parallel = std::getenv("LLAMACPP_PARALLEL");
    if (env_parallel != NULL) {
        params.n_parallel = std::stoi(env_parallel);
        params.cont_batching = true;
    } else {
        params.n_parallel = 1;
    }
    params.cont_batching = true;
    // TODO: Add yarn
    if (!request->tensorsplit().empty()) {