rss9051 commited on
Commit
4d9e68c
·
verified ·
1 Parent(s): 7634ff4

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +4 -3
app.py CHANGED
@@ -8,18 +8,19 @@ model_name = "rss9051/autotrein-BERT-iiLEX-dgs-0004"
8
  client = InferenceClient(model=model_name)
9
  tokenizer = AutoTokenizer.from_pretrained(model_name)
10
 
11
- # Função para dividir o texto em chunks menores com o tokenizador
12
  def split_text_into_chunks(text, max_tokens=512):
13
  tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
14
  chunks = []
15
  for i in range(0, len(tokens), max_tokens):
16
- chunk = tokens[i:i + max_tokens]
17
  chunks.append(chunk)
 
18
  return [tokenizer.decode(chunk, skip_special_tokens=True) for chunk in chunks]
19
 
20
  # Função para classificar texto longo
21
  def classify_text(text):
22
- chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks de 512 tokens
23
  all_responses = [] # Lista para armazenar respostas de cada chunk
24
 
25
  for chunk in chunks:
 
8
  client = InferenceClient(model=model_name)
9
  tokenizer = AutoTokenizer.from_pretrained(model_name)
10
 
11
+ # Função para dividir texto em chunks com base na tokenização
12
  def split_text_into_chunks(text, max_tokens=512):
13
  tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
14
  chunks = []
15
  for i in range(0, len(tokens), max_tokens):
16
+ chunk = tokens[i:i + max_tokens] # Garantir que cada chunk tenha no máximo max_tokens
17
  chunks.append(chunk)
18
+ # Decodificar os chunks de volta para texto
19
  return [tokenizer.decode(chunk, skip_special_tokens=True) for chunk in chunks]
20
 
21
  # Função para classificar texto longo
22
  def classify_text(text):
23
+ chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks menores
24
  all_responses = [] # Lista para armazenar respostas de cada chunk
25
 
26
  for chunk in chunks: