Spaces:

ethanwinters1907
/

openai-gpt-oss-20b

Runtime error

App Files Files Community

ethanwinters1907 commited on Aug 10

Commit

5cb50ed

verified ·

1 Parent(s): 6e23460

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -267

app.py CHANGED Viewed

@@ -1,283 +1,35 @@
-from flask import Flask, request, jsonify, render_template_string
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-import os
 app = Flask(__name__)
-# Load model and tokenizer with proper configuration
-model_name = "openai/gpt-oss-20b"
-print("Loading model and tokenizer...")
 tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b")
 model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b")
-    torch_dtype="auto",
-    device_map="auto"
-)
-print("Model loaded successfully!")
-# HTML template
-HTML_TEMPLATE = """
-<!DOCTYPE html>
-<html>
-<head>
-    <title>OpenAI GPT-OSS-20B Chat</title>
-    <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <style>
-        body {
-            font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
-            max-width: 800px;
-            margin: 0 auto;
-            padding: 20px;
-            background-color: #f5f5f5;
-        }
-        .container {
-            background-color: white;
-            border-radius: 8px;
-            padding: 20px;
-            box-shadow: 0 2px 10px rgba(0,0,0,0.1);
-        }
-        h1 {
-            text-align: center;
-            color: #333;
-            margin-bottom: 30px;
-        }
-        #chat-container {
-            border: 1px solid #ddd;
-            height: 400px;
-            overflow-y: auto;
-            padding: 15px;
-            margin-bottom: 15px;
-            background-color: #fafafa;
-            border-radius: 6px;
-        }
-        .message {
-            margin: 12px 0;
-            padding: 10px 15px;
-            border-radius: 8px;
-            max-width: 80%;
-            word-wrap: break-word;
-        }
-        .user {
-            background-color: #007bff;
-            color: white;
-            margin-left: auto;
-            text-align: right;
-        }
-        .assistant {
-            background-color: #e9ecef;
-            color: #333;
-            margin-right: auto;
-        }
-        #input-container {
-            display: flex;
-            gap: 10px;
-            align-items: center;
-        }
-        #message-input {
-            flex: 1;
-            padding: 12px;
-            border: 2px solid #ddd;
-            border-radius: 6px;
-            font-size: 14px;
-        }
-        #message-input:focus {
-            outline: none;
-            border-color: #007bff;
-        }
-        #send-button {
-            padding: 12px 20px;
-            background-color: #007bff;
-            color: white;
-            border: none;
-            cursor: pointer;
-            border-radius: 6px;
-            font-size: 14px;
-            font-weight: 500;
-        }
-        #send-button:hover:not(:disabled) {
-            background-color: #0056b3;
-        }
-        #send-button:disabled {
-            background-color: #ccc;
-            cursor: not-allowed;
-        }
-        #loading {
-            display: none;
-            text-align: center;
-            color: #666;
-            margin: 10px 0;
-            font-style: italic;
-        }
-        .error {
-            color: #d32f2f;
-        }
-        .typing-indicator {
-            display: none;
-            margin: 12px 0;
-            padding: 10px 15px;
-            background-color: #e9ecef;
-            border-radius: 8px;
-            max-width: 80%;
-        }
-        .typing-dots {
-            display: inline-block;
-        }
-        .typing-dots span {
-            display: inline-block;
-            width: 8px;
-            height: 8px;
-            border-radius: 50%;
-            background-color: #999;
-            margin: 0 2px;
-            animation: typing 1.4s infinite both;
-        }
-        .typing-dots span:nth-child(2) { animation-delay: 0.2s; }
-        .typing-dots span:nth-child(3) { animation-delay: 0.4s; }
-        @keyframes typing {
-            0%, 60%, 100% { transform: translateY(0); }
-            30% { transform: translateY(-10px); }
-        }
-    </style>
-</head>
-<body>
-    <div class="container">
-        <h1>🤖 OpenAI GPT-OSS-20B Chat</h1>
-        <div id="chat-container">
-            <div class="message assistant">
-                <strong>Assistant:</strong> Hello! I'm GPT-OSS-20B. How can I help you today?
-            </div>
-        </div>
-        <div class="typing-indicator" id="typing-indicator">
-            <strong>Assistant:</strong> <div class="typing-dots"><span></span><span></span><span></span></div>
-        </div>
-        <div id="loading">Generating response...</div>
-        <div id="input-container">
-            <input type="text" id="message-input" placeholder="Type your message here..." onkeypress="if(event.key==='Enter') sendMessage()">
-            <button id="send-button" onclick="sendMessage()">Send</button>
-        </div>
-    </div>
-    <script>
-        let chatHistory = [];
-        function addMessage(role, content, isError = false) {
-            const chatContainer = document.getElementById('chat-container');
-            const messageDiv = document.createElement('div');
-            messageDiv.className = `message ${role}`;
-            if (isError) messageDiv.classList.add('error');
-            messageDiv.innerHTML = `<strong>${role === 'user' ? 'You' : 'Assistant'}:</strong> ${content}`;
-            chatContainer.appendChild(messageDiv);
-            chatContainer.scrollTop = chatContainer.scrollHeight;
-        }
-        async function sendMessage() {
-            const input = document.getElementById('message-input');
-            const sendButton = document.getElementById('send-button');
-            const typingIndicator = document.getElementById('typing-indicator');
-            const message = input.value.trim();
-            if (!message) return;
-            addMessage('user', message);
-            input.value = '';
-            sendButton.disabled = true;
-            // Show typing indicator
-            typingIndicator.style.display = 'block';
-            const chatContainer = document.getElementById('chat-container');
-            chatContainer.scrollTop = chatContainer.scrollHeight;
-            try {
-                const response = await fetch('/chat', {
-                    method: 'POST',
-                    headers: { 'Content-Type': 'application/json' },
-                    body: JSON.stringify({ message: message, history: chatHistory })
-                });
-                const data = await response.json();
-                if (data.error) {
-                    addMessage('assistant', `Error: ${data.error}`, true);
-                } else {
-                    addMessage('assistant', data.response);
-                    chatHistory.push([message, data.response]);
-                }
-            } catch (error) {
-                addMessage('assistant', `Network Error: ${error.message}`, true);
-            } finally {
-                typingIndicator.style.display = 'none';
-                sendButton.disabled = false;
-                input.focus();
-            }
-        }
-        // Focus input on load
-        document.addEventListener('DOMContentLoaded', function() {
-            document.getElementById('message-input').focus();
-        });
-    </script>
-</body>
-</html>
-"""
-@app.route('/')
-def home():
-    return render_template_string(HTML_TEMPLATE)
-@app.route('/chat', methods=['POST'])
-def chat():
-    try:
-        data = request.json
-        message = data.get('message', '')
-        history = data.get('history', [])
-        # Format messages
-        messages = []
-        for human_msg, assistant_msg in history:
-            messages.append({"role": "user", "content": human_msg})
-            messages.append({"role": "assistant", "content": assistant_msg})
-        messages.append({"role": "user", "content": message})
-        # Apply chat template
-        inputs = tokenizer.apply_chat_template(
-            messages,
-            add_generation_prompt=True,
-            return_tensors="pt",
-            return_dict=True,
-        ).to(model.device)
-        # Generate response
-        with torch.no_grad():
-            outputs = model.generate(
-                **inputs,
-                max_new_tokens=300,
-                temperature=0.7,
-                do_sample=True,
-                pad_token_id=tokenizer.eos_token_id
-            )
-        # Decode response
-        response = tokenizer.decode(
-            outputs[0][inputs["input_ids"].shape[-1]:],
-            skip_special_tokens=True
-        )
-        return jsonify({"response": response.strip()})
-    except Exception as e:
-        print(f"Error: {str(e)}")
-        return jsonify({"error": str(e)}), 500
-@app.route('/health')
-def health():
-    return jsonify({
-        "status": "healthy",
-        "model": "openai/gpt-oss-20b"
-    })
 if __name__ == '__main__':
-    port = int(os.environ.get("PORT", 7860))
-    app.run(host='0.0.0.0', port=port, debug=False)

+from flask import Flask, request, jsonify
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 app = Flask(__name__)
+# Load tokenizer and model once when the server starts
 tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b")
 model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b")
+# Move model to GPU if available, else CPU
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+@app.route('/generate', methods=['POST'])
+def generate_text():
+    data = request.get_json()
+    prompt = data.get('prompt')
+    if not prompt:
+        return jsonify({'error': 'No prompt provided'}), 400
+    # Tokenize input and move tensors to device
+    inputs = tokenizer.encode(prompt, return_tensors="pt").to(device)
+    # Generate output tokens (you can tweak max_length)
+    outputs = model.generate(inputs, max_length=50, do_sample=True, top_k=50, top_p=0.95)
+    # Decode tokens to string
+    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return jsonify({'generated_text': generated_text})
 if __name__ == '__main__':
+    app.run(debug=True)