LocalAI/pkg/grpc/llm/llama/llama.go

package llama

// This is a wrapper to statisfy the GRPC service interface
// It is meant to be used by the main executable that is the server for the specific backend type (falcon, gpt3, etc)
import (
	"fmt"

	"github.com/go-skynet/LocalAI/pkg/grpc/base"
	pb "github.com/go-skynet/LocalAI/pkg/grpc/proto"
	"github.com/go-skynet/go-llama.cpp"
	"github.com/rs/zerolog/log"
)

type LLM struct {
	base.Base

	llama *llama.LLama
}

func (llm *LLM) Load(opts *pb.ModelOptions) error {

	if llm.Base.State != pb.StatusResponse_UNINITIALIZED {
		log.Warn().Msgf("llama backend loading %s while already in state %s!", opts.Model, llm.Base.State.String())
	}

	llm.Base.Lock()
	defer llm.Base.Unlock()

	ropeFreqBase := float32(10000)
	ropeFreqScale := float32(1)

	if opts.RopeFreqBase != 0 {
		ropeFreqBase = opts.RopeFreqBase
	}
	if opts.RopeFreqScale != 0 {
		ropeFreqScale = opts.RopeFreqScale
	}

	llamaOpts := []llama.ModelOption{
		llama.WithRopeFreqBase(ropeFreqBase),
		llama.WithRopeFreqScale(ropeFreqScale),
	}

	if opts.NGQA != 0 {
		llamaOpts = append(llamaOpts, llama.WithGQA(int(opts.NGQA)))
	}

	if opts.RMSNormEps != 0 {
		llamaOpts = append(llamaOpts, llama.WithRMSNormEPS(opts.RMSNormEps))
	}

	if opts.ContextSize != 0 {
		llamaOpts = append(llamaOpts, llama.SetContext(int(opts.ContextSize)))
	}
	if opts.F16Memory {
		llamaOpts = append(llamaOpts, llama.EnableF16Memory)
	}
	if opts.Embeddings {
		llamaOpts = append(llamaOpts, llama.EnableEmbeddings)
	}
	if opts.NGPULayers != 0 {
		llamaOpts = append(llamaOpts, llama.SetGPULayers(int(opts.NGPULayers)))
	}

	llamaOpts = append(llamaOpts, llama.SetMMap(opts.MMap))
	llamaOpts = append(llamaOpts, llama.SetMainGPU(opts.MainGPU))
	llamaOpts = append(llamaOpts, llama.SetTensorSplit(opts.TensorSplit))
	if opts.NBatch != 0 {
		llamaOpts = append(llamaOpts, llama.SetNBatch(int(opts.NBatch)))
	} else {
		llamaOpts = append(llamaOpts, llama.SetNBatch(512))
	}

	if opts.NUMA {
		llamaOpts = append(llamaOpts, llama.EnableNUMA)
	}

	if opts.LowVRAM {
		llamaOpts = append(llamaOpts, llama.EnabelLowVRAM)
	}

	model, err := llama.New(opts.ModelFile, llamaOpts...)
	llm.llama = model

	return err
}

func buildPredictOptions(opts *pb.PredictOptions) []llama.PredictOption {
	ropeFreqBase := float32(10000)
	ropeFreqScale := float32(1)

	if opts.RopeFreqBase != 0 {
		ropeFreqBase = opts.RopeFreqBase
	}
	if opts.RopeFreqScale != 0 {
		ropeFreqScale = opts.RopeFreqScale
	}
	predictOptions := []llama.PredictOption{
		llama.SetTemperature(opts.Temperature),
		llama.SetTopP(opts.TopP),
		llama.SetTopK(int(opts.TopK)),
		llama.SetTokens(int(opts.Tokens)),
		llama.SetThreads(int(opts.Threads)),
		llama.WithGrammar(opts.Grammar),
		llama.SetRopeFreqBase(ropeFreqBase),
		llama.SetRopeFreqScale(ropeFreqScale),
		llama.SetNegativePromptScale(opts.NegativePromptScale),
		llama.SetNegativePrompt(opts.NegativePrompt),
	}

	if opts.PromptCacheAll {
		predictOptions = append(predictOptions, llama.EnablePromptCacheAll)
	}

	if opts.PromptCacheRO {
		predictOptions = append(predictOptions, llama.EnablePromptCacheRO)
	}

	// Expected absolute path
	if opts.PromptCachePath != "" {
		predictOptions = append(predictOptions, llama.SetPathPromptCache(opts.PromptCachePath))
	}

	if opts.Mirostat != 0 {
		predictOptions = append(predictOptions, llama.SetMirostat(int(opts.Mirostat)))
	}

	if opts.MirostatETA != 0 {
		predictOptions = append(predictOptions, llama.SetMirostatETA(opts.MirostatETA))
	}

	if opts.MirostatTAU != 0 {
		predictOptions = append(predictOptions, llama.SetMirostatTAU(opts.MirostatTAU))
	}

	if opts.Debug {
		predictOptions = append(predictOptions, llama.Debug)
	}

	predictOptions = append(predictOptions, llama.SetStopWords(opts.StopPrompts...))

	if opts.PresencePenalty != 0 {
		predictOptions = append(predictOptions, llama.SetPenalty(opts.PresencePenalty))
	}

	if opts.NKeep != 0 {
		predictOptions = append(predictOptions, llama.SetNKeep(int(opts.NKeep)))
	}

	if opts.Batch != 0 {
		predictOptions = append(predictOptions, llama.SetBatch(int(opts.Batch)))
	}

	if opts.F16KV {
		predictOptions = append(predictOptions, llama.EnableF16KV)
	}

	if opts.IgnoreEOS {
		predictOptions = append(predictOptions, llama.IgnoreEOS)
	}

	if opts.Seed != 0 {
		predictOptions = append(predictOptions, llama.SetSeed(int(opts.Seed)))
	}

	//predictOptions = append(predictOptions, llama.SetLogitBias(c.Seed))

	predictOptions = append(predictOptions, llama.SetFrequencyPenalty(opts.FrequencyPenalty))
	predictOptions = append(predictOptions, llama.SetMlock(opts.MLock))
	predictOptions = append(predictOptions, llama.SetMemoryMap(opts.MMap))
	predictOptions = append(predictOptions, llama.SetPredictionMainGPU(opts.MainGPU))
	predictOptions = append(predictOptions, llama.SetPredictionTensorSplit(opts.TensorSplit))
	predictOptions = append(predictOptions, llama.SetTailFreeSamplingZ(opts.TailFreeSamplingZ))
	predictOptions = append(predictOptions, llama.SetTypicalP(opts.TypicalP))
	return predictOptions
}

func (llm *LLM) Predict(opts *pb.PredictOptions) (string, error) {
	llm.Base.Lock()
	defer llm.Base.Unlock()
	return llm.llama.Predict(opts.Prompt, buildPredictOptions(opts)...)
}

func (llm *LLM) PredictStream(opts *pb.PredictOptions, results chan string) error {
	llm.Base.Lock()

	predictOptions := buildPredictOptions(opts)

	predictOptions = append(predictOptions, llama.SetTokenCallback(func(token string) bool {
		results <- token
		return true
	}))

	go func() {
		_, err := llm.llama.Predict(opts.Prompt, predictOptions...)
		if err != nil {
			fmt.Println("err: ", err)
		}
		close(results)
		llm.Base.Unlock()
	}()

	return nil
}

func (llm *LLM) Embeddings(opts *pb.PredictOptions) ([]float32, error) {
	llm.Base.Lock()
	defer llm.Base.Unlock()

	predictOptions := buildPredictOptions(opts)

	if len(opts.EmbeddingTokens) > 0 {
		tokens := []int{}
		for _, t := range opts.EmbeddingTokens {
			tokens = append(tokens, int(t))
		}
		return llm.llama.TokenEmbeddings(tokens, predictOptions...)
	}

	return llm.llama.Embeddings(opts.Embeddings, predictOptions...)
}

func (llm *LLM) TokenizeString(opts *pb.PredictOptions) (pb.TokenizationResponse, error) {
	llm.Base.Lock()
	defer llm.Base.Unlock()

	predictOptions := buildPredictOptions(opts)
	l, tokens, err := llm.llama.TokenizeString(opts.Prompt, predictOptions...)
	if err != nil {
		return pb.TokenizationResponse{}, err
	}
	return pb.TokenizationResponse{
		Length: l,
		Tokens: tokens,
	}, nil
}
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`package llama`

			`// This is a wrapper to statisfy the GRPC service interface`
			`// It is meant to be used by the main executable that is the server for the specific backend type (falcon, gpt3, etc)`
			`import (`
			`"fmt"`

feat: move other backends to grpc This finally makes everything more consistent Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`"github.com/go-skynet/LocalAI/pkg/grpc/base"`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`pb "github.com/go-skynet/LocalAI/pkg/grpc/proto"`
			`"github.com/go-skynet/go-llama.cpp"`
Usage Features (#863) 2023-08-18 19:23:14 +00:00			`"github.com/rs/zerolog/log"`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`)`

			`type LLM struct {`
feat: move other backends to grpc This finally makes everything more consistent Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`base.Base`

feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`llama *llama.LLama`
			`}`

			`func (llm LLM) Load(opts pb.ModelOptions) error {`
fix: set default rope freq base to 10000 during model load Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-29 08:40:56 +00:00
Usage Features (#863) 2023-08-18 19:23:14 +00:00			`if llm.Base.State != pb.StatusResponse_UNINITIALIZED {`
			`log.Warn().Msgf("llama backend loading %s while already in state %s!", opts.Model, llm.Base.State.String())`
			`}`

			`llm.Base.Lock()`
			`defer llm.Base.Unlock()`

fix: set default rope freq base to 10000 during model load Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-29 08:40:56 +00:00			`ropeFreqBase := float32(10000)`
			`ropeFreqScale := float32(1)`

			`if opts.RopeFreqBase != 0 {`
			`ropeFreqBase = opts.RopeFreqBase`
			`}`
			`if opts.RopeFreqScale != 0 {`
			`ropeFreqScale = opts.RopeFreqScale`
			`}`

fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`llamaOpts := []llama.ModelOption{`
fix: set default rope freq base to 10000 during model load Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-29 08:40:56 +00:00			`llama.WithRopeFreqBase(ropeFreqBase),`
			`llama.WithRopeFreqScale(ropeFreqScale),`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`}`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00
feat: add ngqa and RMSNormEps parameters (#860) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-08-02 22:51:08 +00:00			`if opts.NGQA != 0 {`
			`llamaOpts = append(llamaOpts, llama.WithGQA(int(opts.NGQA)))`
			`}`

			`if opts.RMSNormEps != 0 {`
			`llamaOpts = append(llamaOpts, llama.WithRMSNormEPS(opts.RMSNormEps))`
			`}`

feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`if opts.ContextSize != 0 {`
			`llamaOpts = append(llamaOpts, llama.SetContext(int(opts.ContextSize)))`
			`}`
			`if opts.F16Memory {`
			`llamaOpts = append(llamaOpts, llama.EnableF16Memory)`
			`}`
			`if opts.Embeddings {`
			`llamaOpts = append(llamaOpts, llama.EnableEmbeddings)`
			`}`
			`if opts.NGPULayers != 0 {`
			`llamaOpts = append(llamaOpts, llama.SetGPULayers(int(opts.NGPULayers)))`
			`}`

			`llamaOpts = append(llamaOpts, llama.SetMMap(opts.MMap))`
			`llamaOpts = append(llamaOpts, llama.SetMainGPU(opts.MainGPU))`
			`llamaOpts = append(llamaOpts, llama.SetTensorSplit(opts.TensorSplit))`
			`if opts.NBatch != 0 {`
			`llamaOpts = append(llamaOpts, llama.SetNBatch(int(opts.NBatch)))`
			`} else {`
			`llamaOpts = append(llamaOpts, llama.SetNBatch(512))`
			`}`

			`if opts.NUMA {`
			`llamaOpts = append(llamaOpts, llama.EnableNUMA)`
			`}`

			`if opts.LowVRAM {`
			`llamaOpts = append(llamaOpts, llama.EnabelLowVRAM)`
			`}`

feat: add initial AutoGPTQ backend implementation 2023-08-07 20:39:10 +00:00			`model, err := llama.New(opts.ModelFile, llamaOpts...)`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`llm.llama = model`
Usage Features (#863) 2023-08-18 19:23:14 +00:00
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`return err`
			`}`

			`func buildPredictOptions(opts *pb.PredictOptions) []llama.PredictOption {`
1000 -> 10,000 for ropeFreqBase? the error message talks about a default of 10k, so setting this to 10k instead of 1k experimentally. 2023-07-29 06:37:24 +00:00			`ropeFreqBase := float32(10000)`
fix: set default rope if not specified Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-28 22:04:25 +00:00			`ropeFreqScale := float32(1)`

			`if opts.RopeFreqBase != 0 {`
			`ropeFreqBase = opts.RopeFreqBase`
			`}`
			`if opts.RopeFreqScale != 0 {`
			`ropeFreqScale = opts.RopeFreqScale`
			`}`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`predictOptions := []llama.PredictOption{`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`llama.SetTemperature(opts.Temperature),`
			`llama.SetTopP(opts.TopP),`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`llama.SetTopK(int(opts.TopK)),`
			`llama.SetTokens(int(opts.Tokens)),`
			`llama.SetThreads(int(opts.Threads)),`
feat: add rope settings and negative prompt, drop grammar backend (#797) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-25 17:05:27 +00:00			`llama.WithGrammar(opts.Grammar),`
fix: set default rope if not specified Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-28 22:04:25 +00:00			`llama.SetRopeFreqBase(ropeFreqBase),`
			`llama.SetRopeFreqScale(ropeFreqScale),`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`llama.SetNegativePromptScale(opts.NegativePromptScale),`
feat: add rope settings and negative prompt, drop grammar backend (#797) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-25 17:05:27 +00:00			`llama.SetNegativePrompt(opts.NegativePrompt),`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`}`

			`if opts.PromptCacheAll {`
			`predictOptions = append(predictOptions, llama.EnablePromptCacheAll)`
			`}`

			`if opts.PromptCacheRO {`
			`predictOptions = append(predictOptions, llama.EnablePromptCacheRO)`
			`}`

			`// Expected absolute path`
			`if opts.PromptCachePath != "" {`
			`predictOptions = append(predictOptions, llama.SetPathPromptCache(opts.PromptCachePath))`
			`}`

			`if opts.Mirostat != 0 {`
			`predictOptions = append(predictOptions, llama.SetMirostat(int(opts.Mirostat)))`
			`}`

			`if opts.MirostatETA != 0 {`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`predictOptions = append(predictOptions, llama.SetMirostatETA(opts.MirostatETA))`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`}`

			`if opts.MirostatTAU != 0 {`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`predictOptions = append(predictOptions, llama.SetMirostatTAU(opts.MirostatTAU))`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`}`

			`if opts.Debug {`
			`predictOptions = append(predictOptions, llama.Debug)`
			`}`

			`predictOptions = append(predictOptions, llama.SetStopWords(opts.StopPrompts...))`

			`if opts.PresencePenalty != 0 {`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`predictOptions = append(predictOptions, llama.SetPenalty(opts.PresencePenalty))`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`}`

			`if opts.NKeep != 0 {`
			`predictOptions = append(predictOptions, llama.SetNKeep(int(opts.NKeep)))`
			`}`

			`if opts.Batch != 0 {`
			`predictOptions = append(predictOptions, llama.SetBatch(int(opts.Batch)))`
			`}`

			`if opts.F16KV {`
			`predictOptions = append(predictOptions, llama.EnableF16KV)`
			`}`

			`if opts.IgnoreEOS {`
			`predictOptions = append(predictOptions, llama.IgnoreEOS)`
			`}`

			`if opts.Seed != 0 {`
			`predictOptions = append(predictOptions, llama.SetSeed(int(opts.Seed)))`
			`}`

			`//predictOptions = append(predictOptions, llama.SetLogitBias(c.Seed))`

fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`predictOptions = append(predictOptions, llama.SetFrequencyPenalty(opts.FrequencyPenalty))`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`predictOptions = append(predictOptions, llama.SetMlock(opts.MLock))`
			`predictOptions = append(predictOptions, llama.SetMemoryMap(opts.MMap))`
			`predictOptions = append(predictOptions, llama.SetPredictionMainGPU(opts.MainGPU))`
			`predictOptions = append(predictOptions, llama.SetPredictionTensorSplit(opts.TensorSplit))`
fix: add rope settings during model load, fix CUDA (#821) Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-27 19:56:05 +00:00			`predictOptions = append(predictOptions, llama.SetTailFreeSamplingZ(opts.TailFreeSamplingZ))`
			`predictOptions = append(predictOptions, llama.SetTypicalP(opts.TypicalP))`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`return predictOptions`
			`}`

			`func (llm LLM) Predict(opts pb.PredictOptions) (string, error) {`
Usage Features (#863) 2023-08-18 19:23:14 +00:00			`llm.Base.Lock()`
			`defer llm.Base.Unlock()`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`return llm.llama.Predict(opts.Prompt, buildPredictOptions(opts)...)`
			`}`

feat: move other backends to grpc This finally makes everything more consistent Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`func (llm LLM) PredictStream(opts pb.PredictOptions, results chan string) error {`
Usage Features (#863) 2023-08-18 19:23:14 +00:00			`llm.Base.Lock()`

feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`predictOptions := buildPredictOptions(opts)`

			`predictOptions = append(predictOptions, llama.SetTokenCallback(func(token string) bool {`
			`results <- token`
			`return true`
			`}))`

			`go func() {`
			`_, err := llm.llama.Predict(opts.Prompt, predictOptions...)`
			`if err != nil {`
			`fmt.Println("err: ", err)`
			`}`
			`close(results)`
Usage Features (#863) 2023-08-18 19:23:14 +00:00			`llm.Base.Unlock()`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`}()`
feat: move other backends to grpc This finally makes everything more consistent Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00
			`return nil`
feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`}`

			`func (llm LLM) Embeddings(opts pb.PredictOptions) ([]float32, error) {`
Usage Features (#863) 2023-08-18 19:23:14 +00:00			`llm.Base.Lock()`
			`defer llm.Base.Unlock()`

feat: move llama to a grpc Signed-off-by: Ettore Di Giacinto <mudler@localai.io> 2023-07-14 23:19:43 +00:00			`predictOptions := buildPredictOptions(opts)`

			`if len(opts.EmbeddingTokens) > 0 {`
			`tokens := []int{}`
			`for _, t := range opts.EmbeddingTokens {`
			`tokens = append(tokens, int(t))`
			`}`
			`return llm.llama.TokenEmbeddings(tokens, predictOptions...)`
			`}`

			`return llm.llama.Embeddings(opts.Embeddings, predictOptions...)`
			`}`
Usage Features (#863) 2023-08-18 19:23:14 +00:00
			`func (llm LLM) TokenizeString(opts pb.PredictOptions) (pb.TokenizationResponse, error) {`
			`llm.Base.Lock()`
			`defer llm.Base.Unlock()`

			`predictOptions := buildPredictOptions(opts)`
			`l, tokens, err := llm.llama.TokenizeString(opts.Prompt, predictOptions...)`
			`if err != nil {`
			`return pb.TokenizationResponse{}, err`
			`}`
			`return pb.TokenizationResponse{`
			`Length: l,`
			`Tokens: tokens,`
			`}, nil`
			`}`