whisper.cpp

mirror of https://github.com/ggerganov/whisper.cpp.git synced 2025-05-03 01:03:12 +00:00

History

Gaurav Garg 2f0612cb1c CUDA: Prefer vector flash decoding kernel for Gemma models (llama/12738)

* Prefer vector flash decoding kernel for Gemma models

Vector flash decoding kernel was not being picked for models with head dimension 256. Gemma models are in this category.
Removing this limit improves e2e performance by upto 12% in gen phase throughput for Gemm models.

* Update ggml/src/ggml-cuda/fattn.cu

Co-authored-by: Johannes Gäßler <johannesg@5d6.de>

---------

Co-authored-by: Johannes Gäßler <johannesg@5d6.de>

2025-04-24 20:39:16 +03:00

cmake

ggml : sync/merge cmake,riscv,powerpc, add common.cmake (ggml/0)

2025-03-27 11:06:03 +02:00

include

metal : improve FA + improve MoE (llama/12612)

2025-03-28 21:47:42 +02:00

src

CUDA: Prefer vector flash decoding kernel for Gemma models (llama/12738)

2025-04-24 20:39:16 +03:00

.gitignore

whisper : reorganize source code + improve CMake (#2256 )

2024-06-26 19:34:09 +03:00

CMakeLists.txt

ggml : sync/merge cmake,riscv,powerpc, add common.cmake (ggml/0)

2025-03-27 11:06:03 +02:00