rss9051 commited on
Commit
e69b8d9
1 Parent(s): 35d86be

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +12 -9
app.py CHANGED
@@ -1,22 +1,25 @@
1
  import gradio as gr
2
  from huggingface_hub import InferenceClient
 
3
  import json
4
 
5
- # Inicialize o cliente com o modelo do Hugging Face
6
- client = InferenceClient(model="rss9051/autotrein-BERT-iiLEX-dgs-0004")
 
 
7
 
8
- # Função para dividir o texto em chunks menores
9
  def split_text_into_chunks(text, max_tokens=512):
10
- words = text.split()
11
  chunks = []
12
- for i in range(0, len(words), max_tokens):
13
- chunk = " ".join(words[i:i + max_tokens])
14
  chunks.append(chunk)
15
- return chunks
16
 
17
- # Função para classificar texto, lidando com textos longos
18
  def classify_text(text):
19
- chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks menores
20
  all_responses = [] # Lista para armazenar respostas de cada chunk
21
 
22
  for chunk in chunks:
 
1
  import gradio as gr
2
  from huggingface_hub import InferenceClient
3
+ from transformers import AutoTokenizer
4
  import json
5
 
6
+ # Inicialize o cliente e o tokenizador
7
+ model_name = "rss9051/autotrein-BERT-iiLEX-dgs-0004"
8
+ client = InferenceClient(model=model_name)
9
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
10
 
11
+ # Função para dividir o texto em chunks menores com o tokenizador
12
  def split_text_into_chunks(text, max_tokens=512):
13
+ tokens = tokenizer(text, return_tensors="pt", truncation=False)["input_ids"][0]
14
  chunks = []
15
+ for i in range(0, len(tokens), max_tokens):
16
+ chunk = tokens[i:i + max_tokens]
17
  chunks.append(chunk)
18
+ return [tokenizer.decode(chunk, skip_special_tokens=True) for chunk in chunks]
19
 
20
+ # Função para classificar texto longo
21
  def classify_text(text):
22
+ chunks = split_text_into_chunks(text, max_tokens=512) # Divida o texto em chunks de 512 tokens
23
  all_responses = [] # Lista para armazenar respostas de cada chunk
24
 
25
  for chunk in chunks: