Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -8,18 +8,19 @@ model_name = "rss9051/autotrein-BERT-iiLEX-dgs-0004"
|
|
8 |
client = InferenceClient(model=model_name)
|
9 |
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
10 |
|
11 |
-
# Função para dividir
|
12 |
def split_text_into_chunks(text, max_tokens=512):
|
13 |
tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
|
14 |
chunks = []
|
15 |
for i in range(0, len(tokens), max_tokens):
|
16 |
-
chunk = tokens[i:i + max_tokens]
|
17 |
chunks.append(chunk)
|
|
|
18 |
return [tokenizer.decode(chunk, skip_special_tokens=True) for chunk in chunks]
|
19 |
|
20 |
# Função para classificar texto longo
|
21 |
def classify_text(text):
|
22 |
-
chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks
|
23 |
all_responses = [] # Lista para armazenar respostas de cada chunk
|
24 |
|
25 |
for chunk in chunks:
|
|
|
8 |
client = InferenceClient(model=model_name)
|
9 |
tokenizer = AutoTokenizer.from_pretrained(model_name)
|
10 |
|
11 |
+
# Função para dividir texto em chunks com base na tokenização
|
12 |
def split_text_into_chunks(text, max_tokens=512):
|
13 |
tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
|
14 |
chunks = []
|
15 |
for i in range(0, len(tokens), max_tokens):
|
16 |
+
chunk = tokens[i:i + max_tokens] # Garantir que cada chunk tenha no máximo max_tokens
|
17 |
chunks.append(chunk)
|
18 |
+
# Decodificar os chunks de volta para texto
|
19 |
return [tokenizer.decode(chunk, skip_special_tokens=True) for chunk in chunks]
|
20 |
|
21 |
# Função para classificar texto longo
|
22 |
def classify_text(text):
|
23 |
+
chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks menores
|
24 |
all_responses = [] # Lista para armazenar respostas de cada chunk
|
25 |
|
26 |
for chunk in chunks:
|