import os 
import gradio as gr
from transformers import AutoTokenizer, AutoModelForCasualLM 

os.environ["CURL_CA_BUNDLE"]=""

tokenizer = AutoTokenizer.from_pretrained("togethercomputer/GPT-NeoXT-Chat-Base-20B")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/GPT-NeoXT-Chat-Base-20B", torch_dtype=torch.bfloat16)

def gpt(prompt):
    inputs = tokenizer("<human>: Hello!\n<bot>:", return_tensors='pt').to(model.device)
    outputs = model.generate(**inputs, max_new_tokens=10, do_sample=True, temperature=0.8)
    output_str = tokenizer.decode(outputs[0])
    print(output_str)
    return output_str

gr.Interface(fn=gpt,inputs="text",output="text").launch()