tweak-mpl-chat

Runtime error

App Files Files Community

ahuang11 commited on Nov 30, 2023

Commit

a209ca0

•

1 Parent(s): dcc5dd4

Delete ai.py

Browse files

Files changed (1) hide show

ai.py +0 -291

ai.py DELETED Viewed

@@ -1,291 +0,0 @@
-# pylint: disable=W0707
-# pylint: disable=W0719
-import os
-import json
-import tiktoken
-import openai
-from openai import OpenAI
-import requests
-from constants.cli import OPENAI_MODELS
-from constants.ai import SYSTEM_PROMPT, PROMPT, API_URL
-def retrieve(query, k=10, filters=None):
-    """Retrieves and returns dict.
-    Args:
-        query (str): User query to pass in
-        openai_api_key (str): openai api key. If not passed in, uses environment variable
-        k (int, optional): number of results passed back. Defaults to 10.
-        filters (dict, optional): Filters to apply to the query. You can filter based off
-            any piece of metadata by passing in a dict of the format {metadata_name: filter_value}
-            ie {"library_id": "1234"}.
-            See the README for more details:
-            https://github.com/fleet-ai/context/tree/main#using-fleet-contexts-rich-metadata
-    Returns:
-        list: List of queried results
-    """
-    url = f"{API_URL}/query"
-    params = {
-        "query": query,
-        "dataset": "python_libraries",
-        "n_results": k,
-        "filters": filters,
-    }
-    return requests.post(url, json=params, timeout=120).json()
-def retrieve_context(query, openai_api_key, k=10, filters=None):
-    """Gets the context from our libraries vector db for a given query.
-    Args:
-        query (str): User input query
-        k (int, optional): number of retrieved results. Defaults to 10.
-    """
-    # First, we query the API
-    responses = retrieve(query, k=k, filters=filters)
-    # Then, we build the prompt_with_context string
-    prompt_with_context = ""
-    for response in responses:
-        prompt_with_context += f"\n\n### Context {response['metadata']['url']} ###\n{response['metadata']['text']}"
-    return {"role": "user", "content": prompt_with_context}
-def construct_prompt(
-    messages,
-    context_message,
-    model="gpt-4-1106-preview",
-    cite_sources=True,
-    context_window=3000,
-):
-    """
-    Constructs a RAG (Retrieval-Augmented Generation) prompt by balancing the token count of messages and context_message.
-    If the total token count exceeds the maximum limit, it adjusts the token count of each to maintain a 1:1 proportion.
-    It then combines both lists and returns the result.
-    Parameters:
-    messages (List[dict]): List of messages to be included in the prompt.
-    context_message (dict): Context message to be included in the prompt.
-    model (str): The model to be used for encoding, default is "gpt-4-1106-preview".
-    Returns:
-    List[dict]: The constructed RAG prompt.
-    """
-    # Get the encoding; default to cl100k_base
-    if model in OPENAI_MODELS:
-        encoding = tiktoken.encoding_for_model(model)
-    else:
-        encoding = tiktoken.get_encoding("cl100k_base")
-    # 1) calculate tokens
-    reserved_space = 1000
-    max_messages_count = int((context_window - reserved_space) / 2)
-    max_context_count = int((context_window - reserved_space) / 2)
-    # 2) construct prompt
-    prompts = messages.copy()
-    prompts.insert(0, {"role": "system", "content": SYSTEM_PROMPT})
-    if cite_sources:
-        prompts.insert(-1, {"role": "user", "content": PROMPT})
-    # 3) find how many tokens each list has
-    messages_token_count = len(
-        encoding.encode(
-            "\n".join(
-                [
-                    f"<|im_start|>{message['role']}\n{message['content']}<|im_end|>"
-                    for message in prompts
-                ]
-            )
-        )
-    )
-    context_token_count = len(
-        encoding.encode(
-            f"<|im_start|>{context_message['role']}\n{context_message['content']}<|im_end|>"
-        )
-    )
-    # 4) Balance the token count for each
-    if (messages_token_count + context_token_count) > (context_window - reserved_space):
-        # context has more than limit, messages has less than limit
-        if (messages_token_count < max_messages_count) and (
-            context_token_count > max_context_count
-        ):
-            max_context_count += max_messages_count - messages_token_count
-        # messages has more than limit, context has less than limit
-        elif (messages_token_count > max_messages_count) and (
-            context_token_count < max_context_count
-        ):
-            max_messages_count += max_context_count - context_token_count
-    # 5) Cut each list to the max count
-    # Cut down messages
-    while messages_token_count > max_messages_count:
-        removed_encoding = encoding.encode(
-            f"<|im_start|>{prompts[1]['role']}\n{prompts[1]['content']}<|im_end|>"
-        )
-        messages_token_count -= len(removed_encoding)
-        if messages_token_count < max_messages_count:
-            prompts = (
-                [prompts[0]]
-                + [
-                    {
-                        "role": prompts[1]["role"],
-                        "content": encoding.decode(
-                            removed_encoding[
-                                : min(
-                                    int(max_messages_count -
-                                        messages_token_count),
-                                    len(removed_encoding),
-                                )
-                            ]
-                        )
-                        .replace("<|im_start|>", "")
-                        .replace("<|im_end|>", ""),
-                    }
-                ]
-                + prompts[2:]
-            )
-        else:
-            prompts = [prompts[0]] + prompts[2:]
-    # Cut down context
-    if context_token_count > max_context_count:
-        # Taking a proportion of the content chars length
-        reduced_chars_length = int(
-            len(context_message["content"]) *
-            (max_context_count / context_token_count)
-        )
-        context_message["content"] = context_message["content"][:reduced_chars_length]
-    # 6) Combine both lists
-    prompts.insert(-1, context_message)
-    return prompts
-def get_remote_chat_response(messages, model="gpt-4-1106-preview"):
-    """
-    Returns a streamed OpenAI chat response.
-    Parameters:
-    messages (List[dict]): List of messages to be included in the prompt.
-    model (str): The model to be used for encoding, default is "gpt-4-1106-preview".
-    Returns:
-    str: The streamed OpenAI chat response.
-    """
-    client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY"))
-    try:
-        response = client.chat.completions.create(
-            model=model, messages=messages, temperature=0.2, stream=True
-        )
-        for chunk in response:
-            current_context = chunk.choices[0].delta.content
-            yield current_context
-    except openai.AuthenticationError as error:
-        print("401 Authentication Error:", error)
-        raise Exception(
-            "Invalid OPENAI_API_KEY. Please re-run with a valid key.")
-    except Exception as error:
-        print("Streaming Error:", error)
-        raise Exception("Internal Server Error")
-def get_other_chat_response(messages, model="local-model"):
-    """
-    Returns a streamed chat response from a local server.
-    Parameters:
-    messages (List[dict]): List of messages to be included in the prompt.
-    model (str): The model to be used for encoding, default is "gpt-4-1106-preview".
-    Returns:
-    str: The streamed chat response.
-    """
-    try:
-        if model == "local-model":
-            url = "http://localhost:1234/v1/chat/completions"
-            headers = {"Content-Type": "application/json"}
-            data = {
-                "messages": messages,
-                "temperature": 0.2,
-                "max_tokens": -1,
-                "stream": True,
-            }
-            response = requests.post(
-                url, headers=headers, data=json.dumps(data), stream=True, timeout=120
-            )
-            if response.status_code == 200:
-                for chunk in response.iter_content(chunk_size=None):
-                    decoded_chunk = chunk.decode()
-                    if (
-                        "data:" in decoded_chunk
-                        and decoded_chunk.split("data:")[1].strip()
-                    ):  # Check if the chunk is not empty
-                        try:
-                            chunk_dict = json.loads(
-                                decoded_chunk.split("data:")[1].strip()
-                            )
-                            yield chunk_dict["choices"][0]["delta"].get("content", "")
-                        except json.JSONDecodeError:
-                            pass
-            else:
-                print(f"Error: {response.status_code}, {response.text}")
-                raise Exception("Internal Server Error")
-        else:
-            if not os.environ.get("OPENROUTER_API_KEY"):
-                raise Exception(
-                    f"For non-OpenAI models, like {model}, set your OPENROUTER_API_KEY."
-                )
-            response = requests.post(
-                url="https://openrouter.ai/api/v1/chat/completions",
-                headers={
-                    "Authorization": f"Bearer {os.environ.get('OPENROUTER_API_KEY')}",
-                    "HTTP-Referer": os.environ.get(
-                        "OPENROUTER_APP_URL", "https://fleet.so/context"
-                    ),
-                    "X-Title": os.environ.get("OPENROUTER_APP_TITLE", "Fleet Context"),
-                    "Content-Type": "application/json",
-                },
-                data=json.dumps(
-                    {"model": model, "messages": messages, "stream": True}),
-                stream=True,
-                timeout=120,
-            )
-            if response.status_code == 200:
-                for chunk in response.iter_lines():
-                    decoded_chunk = chunk.decode("utf-8")
-                    if (
-                        "data:" in decoded_chunk
-                        and decoded_chunk.split("data:")[1].strip()
-                    ):  # Check if the chunk is not empty
-                        try:
-                            chunk_dict = json.loads(
-                                decoded_chunk.split("data:")[1].strip()
-                            )
-                            yield chunk_dict["choices"][0]["delta"].get("content", "")
-                        except json.JSONDecodeError:
-                            pass
-            else:
-                print(f"Error: {response.status_code}, {response.text}")
-                raise Exception("Internal Server Error")
-    except requests.exceptions.RequestException as error:
-        print("Request Error:", error)
-        raise Exception(
-            "Invalid request. Please check your request parameters.")