Spaces:

EnzoBustos
/

IC-2022-Classificacao-de-Dados-Financeiros

Runtime error

App Files Files Community

EnzoBustos commited on Aug 23, 2022

Commit

68d461f

1 Parent(s): ada7c88

Changes in app and Images file

Browse files

Files changed (3) hide show

Images/teste.txt +0 -0
README.md +24 -3
app.py +24 -10

Images/teste.txt ADDED Viewed

File without changes

README.md CHANGED Viewed

@@ -16,8 +16,29 @@ tags:
 ---
-# Lorem Ipsum
-Lorem ipsum dolor sit amet, consectetur adipiscing elit. Fusce eget velit ligula. Cras placerat vitae ex vel convallis. Nunc id massa eget magna interdum pretium. Nulla quis tempor odio. Integer mollis fringilla lacinia. Nunc ut ultrices libero. Aenean mollis ut ex sit amet vulputate.
-Integer non tellus consectetur, sodales ligula sed, imperdiet elit. Donec convallis nisi vitae ultrices volutpat. Aliquam a faucibus purus. Proin ut arcu et lectus efficitur venenatis feugiat sed metus. Etiam finibus convallis ipsum vitae euismod. Nulla cursus libero orci. Duis vehicula leo sit amet lectus feugiat, vitae pretium turpis vehicula. Vestibulum dolor ex, semper sit amet fermentum sed, posuere sed urna. Class aptent taciti sociosqu ad litora torquent per conubia nostra, per inceptos himenaeos. Sed euismod eleifend tincidunt. Nullam hendrerit efficitur tortor.

 ---
+# IC 2022 Classificação de Dados Financeiros
+Este trabalho de Iniciação Científica visa criar uma *interface web* que integre diversas funcionalidades de *machine learning*, essas funcionalidades cooperam entre si para realizar um processamento automático de textos financeiros com o fim de aplicar técnicar de Tradução Automática, Análise de Sentimentos e Classificação ZeroShot de textos em português sobre artigos do ramo financeiro.
+Este projeto também visa incluir novas técnicas ao leque de opções desta ferramenta, voltados principalmente para o Processamento de Linguagem Natural (PLN) tanto para fins de estudo e conhecimento dos modelos pautados como estado-da-arte, como também aperfeiçoamento dos módulos e saídas já implementados.
+Dentre os modelos utilizados estão:
+1. Tradução Automática:
+    1. TextBlob
+    2. M2M100
+    3. OPUS
+    4. T5
+    5. mBART
+2. Análise de Sentimentos:
+    1. VADER
+    2. FinBERT
+    3. DistilBERT
+    4. BERT
+3. Classificação:
+    1. Inferição pelo nome da empresa presente no texto
+    2. RoBERTa
+    3. mDeBERTa
+    4. DistilroBERTa

app.py CHANGED Viewed

@@ -111,7 +111,7 @@ def run_models(parameters_list):
     return out_translation, out_sentiment, out_classification
-sheet_id = "1pg13sroB-pIEXtIL5UrRowKdXWRPWnH7"
 sheet_name = "Sheet1"
 url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}"
@@ -152,19 +152,33 @@ with model:
             st.write("Classification...............................................................: \n {} \n \n".format(outputs[2]))
 with dataset:
-    st.header("Dados utilizados no projeto!")
-    st.write("Os dados blablablabla")
     st.dataframe(df)
     st.subheader("Descrição das colunas:")
-    st.write("\t*- Texts:* Coluna que mostra os textos financeiros")
-    st.write("\t*- Texts:* Coluna que mostra os textos financeiros")
-    st.write("\t*- Texts:* Coluna que mostra os textos financeiros")
-    st.write("\t*- Texts:* Coluna que mostra os textos financeiros")
-    st.write("\t*- Texts:* Coluna que mostra os textos financeiros")
 with analysis:
     st.header("Visualização dos dados utilizados através de WordClouds")
     with analysis_1:
-        pass

     return out_translation, out_sentiment, out_classification
+sheet_id = "1TjDuF6dmirgdpuG_o5Y4CBPQdfmkksS1"
 sheet_name = "Sheet1"
 url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}"
             st.write("Classification...............................................................: \n {} \n \n".format(outputs[2]))
 with dataset:
+    st.header("Dados utilizados no projeto")
+    st.write("Os dados abaixo foram obtidos através de *web scrapping* dos sites Valor Globo, Infomoney e Exame para o fim de aplicação dos modelos selecionados, para a confecção dos dados abaixo foram utilizados o TextBlob para Tradução Automática, VADER para a Análise de Sentimentos, Inferição por empresas presentes no texto e Roberta para a Classificação.")
     st.dataframe(df)
     st.subheader("Descrição das colunas:")
+    st.write("\t**- date:.........** Coluna de entrada contendo as datas em que os textos foram publicados")
+    st.write("\t**- url:..........** Coluna de entrada contendo os links para as páginas *web* das quais os textos foram retirados")
+    st.write("\t**- texts:........** Coluna de entrada contendo os textos financeiros propriamente ditos")
+    st.write("\t**- is_title:.....** Coluna de entrada contendo os se os textos são, ou não, pertencentes ao título da notícia")
+    st.write("\t**- translated:...** Coluna de saída contendo os textos financeiros que foram traduzidos utilizando o TextBlob")
+    st.write("\t**- theme:........** Coluna de saída contendo as classificações em áreas financeiras, das quais metade foram obtidas pelo nome de empresas presentes no texto e a outra metade obtidos por classificação zeroshot do modelo RoBERTa")
+    st.write("\t**- sentiment:....** Coluna de saída contendo as análises de sentimentos dos textos utilizando VADER")
 with analysis:
     st.header("Visualização dos dados utilizados através de WordClouds")
     with analysis_1:
+        wordcloud = st.selectbox('Qual wordcloud você deseja ver?', (
+           "Health",
+           "Financial",
+           "Industrial Goods",
+           "Public utility",
+           "Others",
+           "Communications",
+           "Cyclic Consumption",
+           "Information Technology",
+           "Oil, Gas and Biofuels",
+           "Non-cyclical Consumption",
+           "Basic Materials",
+        ))