eudr_chabo_generator

Running on CPU Upgrade

mtyrrell commited on Oct 2

Commit

7fca207

1 Parent(s): bea4d82

added novita for HF inference provider

Files changed (2) hide show

params.cfg CHANGED Viewed

@@ -1,8 +1,8 @@
 [generator]
 PROVIDER = huggingface
 MODEL = meta-llama/Meta-Llama-3-8B-Instruct
-MAX_TOKENS = 512
-TEMPERATURE = 0.2
 INFERENCE_PROVIDER = novita
 ORGANIZATION = GIZ

 [generator]
 PROVIDER = huggingface
 MODEL = meta-llama/Meta-Llama-3-8B-Instruct
+MAX_TOKENS = 768
+TEMPERATURE = 0
 INFERENCE_PROVIDER = novita
 ORGANIZATION = GIZ

utils/generator.py CHANGED Viewed

@@ -32,6 +32,8 @@ PROVIDER = config.get("generator", "PROVIDER")
 MODEL = config.get("generator", "MODEL")
 MAX_TOKENS = int(config.get("generator", "MAX_TOKENS"))
 TEMPERATURE = float(config.get("generator", "TEMPERATURE"))
 # Set up authentication for the selected provider
 auth_config = get_auth(PROVIDER)
@@ -45,8 +47,14 @@ def _get_chat_model():
         "anthropic": lambda: ChatAnthropic(model=MODEL, anthropic_api_key=auth_config["api_key"], streaming=True, **common_params),
         "cohere": lambda: ChatCohere(model=MODEL, cohere_api_key=auth_config["api_key"], streaming=True, **common_params),
         "huggingface": lambda: ChatHuggingFace(llm=HuggingFaceEndpoint(
-            repo_id=MODEL, huggingfacehub_api_token=auth_config["api_key"],
-            task="text-generation", temperature=TEMPERATURE, max_new_tokens=MAX_TOKENS, streaming=True
         ))
     }

 MODEL = config.get("generator", "MODEL")
 MAX_TOKENS = int(config.get("generator", "MAX_TOKENS"))
 TEMPERATURE = float(config.get("generator", "TEMPERATURE"))
+INFERENCE_PROVIDER = config.get("generator", "INFERENCE_PROVIDER")
+ORGANIZATION = config.get("generator", "ORGANIZATION")
 # Set up authentication for the selected provider
 auth_config = get_auth(PROVIDER)
         "anthropic": lambda: ChatAnthropic(model=MODEL, anthropic_api_key=auth_config["api_key"], streaming=True, **common_params),
         "cohere": lambda: ChatCohere(model=MODEL, cohere_api_key=auth_config["api_key"], streaming=True, **common_params),
         "huggingface": lambda: ChatHuggingFace(llm=HuggingFaceEndpoint(
+            repo_id=MODEL,
+            huggingfacehub_api_token=auth_config["api_key"],
+            task="text-generation",
+            provider=INFERENCE_PROVIDER,
+            server_kwargs={"bill_to": ORGANIZATION},
+            temperature=TEMPERATURE,
+            max_new_tokens=MAX_TOKENS,
+            streaming=True
         ))
     }