Spaces:

awacke1
/

MistralGradioFast

Sleeping

App Files Files Community

MistralGradioFast / app.py

awacke1

Update app.py

badcff3 over 1 year ago

raw

history blame contribute delete

4.38 kB

	from huggingface_hub import InferenceClient
	import gradio as gr

	client = InferenceClient(
	"mistralai/Mistral-7B-Instruct-v0.1"
	)


	def format_prompt(message, history):
	prompt = "<s>"
	for user_prompt, bot_response in history:
	prompt += f"[INST] {user_prompt} [/INST]"
	prompt += f" {bot_response}</s> "
	prompt += f"[INST] {message} [/INST]"
	return prompt

	def generate(
	prompt, history, temperature=0.9, max_new_tokens=256, top_p=0.95, repetition_penalty=1.0,
	):
	temperature = float(temperature)
	if temperature < 1e-2:
	temperature = 1e-2
	top_p = float(top_p)

	generate_kwargs = dict(
	temperature=temperature,
	max_new_tokens=max_new_tokens,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	do_sample=True,
	seed=42,
	)

	formatted_prompt = format_prompt(prompt, history)

	stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
	output = ""

	for response in stream:
	output += response.token.text
	yield output
	return output


	additional_inputs=[
	gr.Slider(
	label="Temperature",
	value=0.9,
	minimum=0.0,
	maximum=1.0,
	step=0.05,
	interactive=True,
	info="Higher values produce more diverse outputs",
	),
	gr.Slider(
	label="Max new tokens",
	value=256,
	minimum=0,
	maximum=1048,
	step=64,
	interactive=True,
	info="The maximum numbers of new tokens",
	),
	gr.Slider(
	label="Top-p (nucleus sampling)",
	value=0.90,
	minimum=0.0,
	maximum=1,
	step=0.05,
	interactive=True,
	info="Higher values sample more low-probability tokens",
	),
	gr.Slider(
	label="Repetition penalty",
	value=1.2,
	minimum=1.0,
	maximum=2.0,
	step=0.05,
	interactive=True,
	info="Penalize repeated tokens",
	)
	]

	css = """
	#mkd {
	height: 200px;
	overflow: auto;
	border: 1px solid #ccc;
	}
	"""

	with gr.Blocks(css=css) as demo:

	gr.ChatInterface(
	generate,
	additional_inputs=additional_inputs,
	examples=[
	["Create a ten-point markdown outline with emojis about: Decreased α-ketoglutarate dehydrogenase activity in astrocytes"],
	["Create a ten-point markdown outline with emojis about: Lewy body dementia"],
	["Create a ten-point markdown outline with emojis about: Delusional disorder"],
	["Create a ten-point markdown outline with emojis about: Galantamine"],
	["Create a ten-point markdown outline with emojis about: Neural crest"],
	["Create a ten-point markdown outline with emojis about: Progressive multifocal encephalopathy (PML)"],
	["Create a ten-point markdown outline with emojis about: CT head"],
	["Create a ten-point markdown outline with emojis about: β-Galactocerebrosidase"],
	["Create a ten-point markdown outline with emojis about: Dopamine"],
	["Create a ten-point markdown outline with emojis about: G protein-coupled receptors"],
	["Create a ten-point markdown outline with emojis about: CT scan of the head without contrast"],
	["Create a ten-point markdown outline with emojis about: Pyogenic brain abscess"],
	["Create a ten-point markdown outline with emojis about: Pneumocystitis jiroveci"]
	]
	)
	gr.HTML("""<h2>🤖 Mistral Chat - Gradio 🤖</h2>
	In this demo, you can chat with <a href='https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.1'>Mistral-7B-Instruct</a> model. 💬
	Learn more about the model <a href='https://huggingface.co/docs/transformers/main/model_doc/mistral'>here</a>. 📚
	<h2>🛠 Model Features 🛠</h2>
	<ul>
	<li>🪟 Sliding Window Attention with 128K tokens span</li>
	<li>🚀 GQA for faster inference</li>
	<li>📝 Byte-fallback BPE tokenizer</li>
	</ul>
	<h3>📜 License 📜 Released under Apache 2.0 License</h3>
	<h3>📦 Usage 📦</h3>
	<ul>
	<li>📚 Available on Huggingface Hub</li>
	<li>🐍 Python code snippets for easy setup</li>
	<li>📈 Expected speedups with Flash Attention 2</li>
	</ul>
	""")
	demo.queue().launch(debug=True)