Spaces:

naufalnashif
/

sentiment-analysis-ensemble-model

Sleeping

App Files Files Community

naufalnashif commited on Nov 18, 2023

Commit

7e56286

1 Parent(s): 6f065f8

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -12

app.py CHANGED Viewed

@@ -57,18 +57,14 @@ def clean_text(text):
     text = re.sub(r'(\w)\1{2,}', r'\1', text)
     return text
-# Fungsi untuk normalisasi kata gaul
 @st.cache_data
-def normalize_slang(text, slang_dict):
-    # Membaca kamus kata gaul Salsabila
-    kamus_path = '_json_colloquial-indonesian-lexicon (1).txt'  # Ganti dengan path yang benar
     with open(kamus_path) as f:
         data = f.read()
     lookp_dict = json.loads(data)
     # Dict kata gaul saya sendiri yang tidak masuk di dict Salsabila
-    kamus_sendiri_path = 'kamus_gaul_custom.txt'
     with open(kamus_sendiri_path) as f:
         kamus_sendiri = f.read()
     kamus_gaul_baru = json.loads(kamus_sendiri)
@@ -76,6 +72,17 @@ def normalize_slang(text, slang_dict):
     # Menambahkan dict kata gaul baru ke kamus yang sudah ada
     lookp_dict.update(kamus_gaul_baru)
     words = text.split()
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
@@ -84,8 +91,6 @@ def normalize_slang(text, slang_dict):
 @st.cache_data
 def remove_stopwords(text, stop_words):
-    nltk.download("stopwords")
-    stop_words = set(stopwords.words("indonesian"))
     # Pecah teks menjadi kata-kata
     words = text.split()
@@ -227,6 +232,7 @@ def get_table_download_link(df, download_format):
 # Judul
 st.title("Analisis Sentimen Based on Tweets Biskita Transpakuan")
 #-----------------------------------------------------General Settings---------------------------------------------------------------
 with st.expander("General Settings :"):
     # Tambahkan widget untuk memilih model
@@ -244,7 +250,7 @@ with st.expander("General Settings :"):
     else:
         # Input berkas XLSX
         uploaded_file = st.file_uploader("Unggah berkas XLSX", type=["xlsx"])
-        st.write("**Pastikan berkas XLSX Anda memiliki kolom yang bernama 'Text'.**")
         if uploaded_file is not None:
             df = pd.read_excel(uploaded_file)
@@ -258,13 +264,14 @@ with st.expander("General Settings :"):
             if "Date" in df.columns :
                 if not df['Date'].empty:
                     dates = df['Date']
-                    bar = st.selectbox("Pilih Tampilan Bar Chart :", ("Distribusi Kelas", "Distribusi Kelas Berdasarkan Waktu"), index = 0)
-                    target_year = st.selectbox("Pilih Tahun Bar Chart :", df['Date'].str[:4].unique())
 #-----------------------------------------------------Preference Settings--------------------------------------------------
 with st.expander ("Preference Settings :"):
     colormap = st.selectbox("Pilih Warna Wordclouds :", ["Greys", "Purples", "Blues", "Greens", "Oranges", "Reds", "YlOrBr", "YlOrRd", "OrRd", "PuRd", "RdPu", "BuPu", "GnBu", "PuBu", "YlGnBu", "PuBuGn", "BuGn", "YlGn"])
 # Analisis sentimen
 results = []
 analisis = False

     text = re.sub(r'(\w)\1{2,}', r'\1', text)
     return text
 @st.cache_data
+def load_file(kamus_path, kamus_sendiri_path):
+    # Membaca kamus kata gaul Salsabila
     with open(kamus_path) as f:
         data = f.read()
     lookp_dict = json.loads(data)
     # Dict kata gaul saya sendiri yang tidak masuk di dict Salsabila
     with open(kamus_sendiri_path) as f:
         kamus_sendiri = f.read()
     kamus_gaul_baru = json.loads(kamus_sendiri)
     # Menambahkan dict kata gaul baru ke kamus yang sudah ada
     lookp_dict.update(kamus_gaul_baru)
+    nltk.download("stopwords")
+    stop_words = set(stopwords.words("indonesian"))
+    return lookp_dict, stop_words
+kamus_path = '_json_colloquial-indonesian-lexicon (1).txt'
+kamus_sendiri_path = 'kamus_gaul_custom.txt'
+lookp_dict, stop_words = load_file(kamus_path, kamus_sendiri_path)
+# Fungsi untuk normalisasi kata gaul
+@st.cache_data
+def normalize_slang(text, slang_dict):
     words = text.split()
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
 @st.cache_data
 def remove_stopwords(text, stop_words):
     # Pecah teks menjadi kata-kata
     words = text.split()
 # Judul
 st.title("Analisis Sentimen Based on Tweets Biskita Transpakuan")
+preference_barchart_date = False
 #-----------------------------------------------------General Settings---------------------------------------------------------------
 with st.expander("General Settings :"):
     # Tambahkan widget untuk memilih model
     else:
         # Input berkas XLSX
         uploaded_file = st.file_uploader("Unggah berkas XLSX", type=["xlsx"])
+        st.info("Pastikan berkas XLSX Anda memiliki kolom yang bernama 'Text'.")
         if uploaded_file is not None:
             df = pd.read_excel(uploaded_file)
             if "Date" in df.columns :
                 if not df['Date'].empty:
                     dates = df['Date']
+                    preference_barchart_date = True
 #-----------------------------------------------------Preference Settings--------------------------------------------------
 with st.expander ("Preference Settings :"):
     colormap = st.selectbox("Pilih Warna Wordclouds :", ["Greys", "Purples", "Blues", "Greens", "Oranges", "Reds", "YlOrBr", "YlOrRd", "OrRd", "PuRd", "RdPu", "BuPu", "GnBu", "PuBu", "YlGnBu", "PuBuGn", "BuGn", "YlGn"])
+    if preference_barchart_date == True:
+        bar = st.selectbox("Pilih Tampilan Bar Chart :", ("Distribusi Kelas", "Distribusi Kelas Berdasarkan Waktu"), index = 0)
+        target_year = st.selectbox("Pilih Tahun Bar Chart :", df['Date'].str[:4].unique())
 # Analisis sentimen
 results = []
 analisis = False