Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -1,22 +1,25 @@
|
|
1 |
import gradio as gr
|
2 |
from huggingface_hub import InferenceClient
|
|
|
3 |
import json
|
4 |
|
5 |
-
# Inicialize o cliente
|
6 |
-
|
|
|
|
|
7 |
|
8 |
-
# Função para dividir o texto em chunks menores
|
9 |
def split_text_into_chunks(text, max_tokens=512):
|
10 |
-
|
11 |
chunks = []
|
12 |
-
for i in range(0, len(
|
13 |
-
chunk =
|
14 |
chunks.append(chunk)
|
15 |
-
return chunks
|
16 |
|
17 |
-
# Função para classificar texto
|
18 |
def classify_text(text):
|
19 |
-
chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks
|
20 |
all_responses = [] # Lista para armazenar respostas de cada chunk
|
21 |
|
22 |
for chunk in chunks:
|
|
|
1 |
import gradio as gr
|
2 |
from huggingface_hub import InferenceClient
|
3 |
+
from transformers import AutoTokenizer
|
4 |
import json
|
5 |
|
6 |
+
# Inicialize o cliente e o tokenizador
|
7 |
+
model_name = "rss9051/autotrein-BERT-iiLEX-dgs-0004"
|
8 |
+
client = InferenceClient(model=model_name)
|
9 |
+
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
10 |
|
11 |
+
# Função para dividir o texto em chunks menores com o tokenizador
|
12 |
def split_text_into_chunks(text, max_tokens=512):
|
13 |
+
tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
|
14 |
chunks = []
|
15 |
+
for i in range(0, len(tokens), max_tokens):
|
16 |
+
chunk = tokens[i:i + max_tokens]
|
17 |
chunks.append(chunk)
|
18 |
+
return [tokenizer.decode(chunk, skip_special_tokens=True) for chunk in chunks]
|
19 |
|
20 |
+
# Função para classificar texto longo
|
21 |
def classify_text(text):
|
22 |
+
chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks de 512 tokens
|
23 |
all_responses = [] # Lista para armazenar respostas de cada chunk
|
24 |
|
25 |
for chunk in chunks:
|