Spaces:

naufalnashif
/

sentiment-analysis-ensemble-model

Sleeping

App Files Files Community

naufalnashif commited on Nov 18, 2023

Commit

1d246f3

1 Parent(s): 002bcee

Update app.py

Browse files

Files changed (1) hide show

app.py +179 -67

app.py CHANGED Viewed

@@ -78,6 +78,21 @@ def normalize_slang(text, slang_dict):
     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
 # Fungsi untuk ekstraksi fitur TF-IDF
 def extract_tfidf_features(texts, tfidf_vectorizer):
     tfidf_matrix = tfidf_vectorizer.transform(texts)
@@ -87,6 +102,8 @@ def extract_tfidf_features(texts, tfidf_vectorizer):
 tfidf_model_path = 'X_tfidf_model.joblib'
 tfidf_vectorizer = joblib.load(tfidf_model_path)
 # Fungsi untuk memilih model berdasarkan pilihan pengguna
 def select_sentiment_model(selected_model):
     if selected_model == "Ensemble":
@@ -134,6 +151,68 @@ def get_emoticon(sentiment):
     return emoticon
 # Fungsi untuk membuat tautan unduhan
 def get_table_download_link(df, download_format):
     if download_format == "XLSX":
@@ -146,32 +225,39 @@ def get_table_download_link(df, download_format):
 # Judul
 st.title("Analisis Sentimen Based on Tweets Biskita Transpakuan")
-# Tambahkan widget untuk memilih model
-selected_model = st.selectbox("Pilih Model Sentimen:", ("Ensemble", "Naive Bayes", "Logistic Regression"))
-# Memilih model sentimen berdasarkan pilihan pengguna
-sentiment_model = select_sentiment_model(selected_model)
-# Pilihan input teks manual atau berkas XLSX
-input_option = st.radio("Pilih metode input:", ("Teks Manual", "Unggah Berkas XLSX"))
-if input_option == "Teks Manual":
-    # Input teks dari pengguna
-    user_input = st.text_area("Masukkan teks:", "")
-else:
-    # Input berkas XLSX
-    uploaded_file = st.file_uploader("Unggah berkas XLSX", type=["xlsx"])
-    st.write("**Pastikan berkas XLSX Anda memiliki kolom yang bernama 'Text'.**")
-    if uploaded_file is not None:
-        df = pd.read_excel(uploaded_file)
-        if 'Text' not in df.columns:
-            st.warning("Berkas XLSX harus memiliki kolom bernama 'Text' untuk analisis sentimen.")
-        else:
-            texts = df['Text']  # Sesuaikan dengan nama kolom di berkas XLSX Anda
 # Analisis sentimen
 results = []
 analisis = False
@@ -183,12 +269,16 @@ if st.button("Analysis") and input_option == "Teks Manual" and user_input:
         emoticon = get_emoticon(sentiment_label)
         cleaned_text = clean_text(text)
         norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
-        results.append((text, cleaned_text, norm_slang_text, sentiment_label, emoticon))
-        #pipe = pipeline('sentiment-analysis')
-        #st.write ("Model Transformers :")
-        #if text :
-        #    out = pipe(text)
-        #    st.json(out)
         analisis = True
 elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
@@ -198,7 +288,26 @@ elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
             emoticon = get_emoticon(sentiment_label)
             cleaned_text = clean_text(text)
             norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
-            results.append((text, cleaned_text, norm_slang_text, sentiment_label, emoticon))
             analisis = True
     else:
@@ -207,58 +316,61 @@ elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
 st.info('Tekan "Analysis" kembali jika tampilan menghilang', icon = 'ℹ️')
 if results and analisis == True:
     # Membagi tampilan menjadi dua kolom
     columns = st.columns(2)
     # Kolom pertama untuk Word Cloud
     with columns[0]:
-        if results:
-            all_texts = [result[2] for result in results if result[2] is not None and not pd.isna(result[2])]
-            all_texts = " ".join(all_texts)
-            st.subheader("Word Cloud")
-            if all_texts:
-                wordcloud = WordCloud(width=800, height=660, background_color='white',
-                                      colormap='Purples',   # Warna huruf
-                                      contour_color='black',  # Warna kontur
-                                      contour_width=2,       # Lebar kontur
-                                      mask=None,             # Gunakan mask untuk bentuk kustom
-                                      ).generate(all_texts)
-                st.image(wordcloud.to_array())
-            else:
-                st.write("Tidak ada data untuk ditampilkan dalam Word Cloud.")
     # Kolom kedua untuk Bar Chart
     with columns[1]:
-        st.subheader("Chart")
-        if results:
-            df_results = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
-            sns.set_style("whitegrid")
-            # Menyiapkan label kelas
-            class_labels = ["Negatif", "Netral", "Positif"]
-            # Menghitung nilai hitungan per label
-            value_counts = df_results["Hasil Analisis Sentimen"].value_counts()
-            # Mengurutkan nilai hitungan berdasarkan label
-            value_counts = value_counts.reindex(class_labels)
-            fig, ax = plt.subplots()  # Buat objek Figure
-            sns.barplot(x=value_counts.index, y=value_counts.values, ax=ax)  # Gunakan ax= untuk plot
-            plt.xticks(rotation=45)
-            st.pyplot(fig)  # Tampilkan plot menggunakan st.pyplot(fig)
     # Menampilkan hasil analisis sentimen dalam kotak yang dapat diperluas
     with st.expander("Hasil Analisis Sentimen"):
         # Tampilkan tabel hasil analisis sentimen
-        st.write(pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"]))
     if results:
         # Simpan DataFrame ke dalam file CSV
-        df = pd.DataFrame(results, columns=["Teks", "Cleaned Text", "Norm Text", "Hasil Analisis Sentimen", "Emotikon"])
         csv = df.to_csv(index=False)
         # Tampilkan tombol unduh CSV

     normalized_words = [slang_dict.get(word, word) for word in words]
     return ' '.join(normalized_words)
+#---------------------------------------------------NLTK Remove Stopwords----------------------------------------------------------------------
+# Inisialisasi stopwords bahasa Indonesia
+nltk.download("stopwords")
+stop_words = set(stopwords.words("indonesian"))
+def remove_stopwords(text, stop_words):
+    # Pecah teks menjadi kata-kata
+    words = text.split()
+    # Hapus stopwords bahasa Indonesia
+    words = [word for word in words if word not in stop_words]
+    return " ".join(words)
+#---------------------------------------------------TFIDF----------------------------------------------------------------------
 # Fungsi untuk ekstraksi fitur TF-IDF
 def extract_tfidf_features(texts, tfidf_vectorizer):
     tfidf_matrix = tfidf_vectorizer.transform(texts)
 tfidf_model_path = 'X_tfidf_model.joblib'
 tfidf_vectorizer = joblib.load(tfidf_model_path)
+#---------------------------------------------------Milih Model----------------------------------------------------------------------
 # Fungsi untuk memilih model berdasarkan pilihan pengguna
 def select_sentiment_model(selected_model):
     if selected_model == "Ensemble":
     return emoticon
+def buat_chart(df, target_year):
+    st.write(f"Bar Chart Tahun {target_year}:")
+    # Ambil bulan
+    df['at'] = pd.to_datetime(df['at'])  # Convert 'at' column to datetime
+    df['month'] = df['at'].dt.month
+    df['year'] = df['at'].dt.year
+    # Filter DataFrame for the desired year
+    df_filtered = df[df['year'] == target_year]
+    # Check if data for the target year is available
+    if df_filtered.empty:
+        st.warning(f"Tidak ada data untuk tahun {target_year}.")
+        return
+    # Mapping nilai bulan ke nama bulan
+    bulan_mapping = {
+        1: f'Januari {target_year}',
+        2: f'Februari {target_year}',
+        3: f'Maret {target_year}',
+        4: f'April {target_year}',
+        5: f'Mei {target_year}',
+        6: f'Juni {target_year}',
+        7: f'Juli {target_year}',
+        8: f'Agustus {target_year}',
+        9: f'September {target_year}',
+        10: f'Oktober {target_year}',
+        11: f'November {target_year}',
+        12: f'Desember {target_year}'
+    }
+    # Mengganti nilai dalam kolom 'month' menggunakan mapping
+    df_filtered['month'] = df_filtered['month'].replace(bulan_mapping)
+    # Menentukan warna untuk setiap kategori dalam kolom 'score'
+    warna_label = {
+        'Negatif': '#FF9AA2',
+        'Netral': '#FFDAC1',
+        'Positif': '#B5EAD7'
+    }
+    # Sorting unique scores
+    unique_label = sorted(df_filtered['label'].unique())
+    # Ensure months are in the correct order
+    months_order = [
+        f'Januari {target_year}', f'Februari {target_year}', f'Maret {target_year}', f'April {target_year}', f'Mei {target_year}', f'Juni {target_year}',
+        f'Juli {target_year}', f'Agustus {target_year}', f'September {target_year}', f'Oktober {target_year}', f'November {target_year}', f'Desember {target_year}'
+    ]
+    # Sort DataFrame based on the custom order of months
+    df_filtered['month'] = pd.Categorical(df_filtered['month'], categories=months_order, ordered=True)
+    df_filtered = df_filtered.sort_values('month')
+    # Create a bar chart with stacking and manual colors
+    st.bar_chart(
+        df_filtered.groupby(['month', 'label']).size().unstack().fillna(0),
+        color=[warna_label[label] for label in unique_label]
+    )
 # Fungsi untuk membuat tautan unduhan
 def get_table_download_link(df, download_format):
     if download_format == "XLSX":
 # Judul
 st.title("Analisis Sentimen Based on Tweets Biskita Transpakuan")
+#-----------------------------------------------------General Settings---------------------------------------------------------------
+with st.expander("General Settings :"):
+    # Tambahkan widget untuk memilih model
+    selected_model = st.selectbox("Pilih Model Sentimen:", ("Ensemble", "Naive Bayes", "Logistic Regression", "Transformer"))
+    # Memilih model sentimen berdasarkan pilihan pengguna
+    sentiment_model = select_sentiment_model(selected_model)
+    # Pilihan input teks manual atau berkas XLSX
+    input_option = st.radio("Pilih metode input:", ("Teks Manual", "Unggah Berkas XLSX"))
+    if input_option == "Teks Manual":
+        # Input teks dari pengguna
+        user_input = st.text_area("Masukkan teks:", "")
+    else:
+        # Input berkas XLSX
+        uploaded_file = st.file_uploader("Unggah berkas XLSX", type=["xlsx"])
+        st.write("**Pastikan berkas XLSX Anda memiliki kolom yang bernama 'Text'.**")
+        if uploaded_file is not None:
+            df = pd.read_excel(uploaded_file)
+            if 'Text' not in df.columns:
+                st.warning("Berkas XLSX harus memiliki kolom bernama 'Text' untuk analisis sentimen.")
+            else:
+                texts = df['Text']  # Sesuaikan dengan nama kolom di berkas XLSX Anda
+            if 'Date' in df.columns :
+                dates = df['Date']
+#-----------------------------------------------------Preference Settings--------------------------------------------------
+with st.expander ("Preference Settings :"):
+    colormap = st.selectbox("Pilih Warna Wordclouds :", ["Greys", "Purples", "Blues", "Greens", "Oranges", "Reds", "YlOrBr", "YlOrRd", "OrRd", "PuRd", "RdPu", "BuPu", "GnBu", "PuBu", "YlGnBu", "PuBuGn", "BuGn", "YlGn"])
+    if dates:
+        target_year = st.selectbox("Pilih Tahun Bar Chart :", (2017, 2018, 2019, 2020, 2021, 2022, 2023, 2024, 2025), index = 5)
 # Analisis sentimen
 results = []
 analisis = False
         emoticon = get_emoticon(sentiment_label)
         cleaned_text = clean_text(text)
         norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
+        tanpa_stopwords = remove_stopwords(norm_slang_text, stop_words)
+        results_prep.append({
+            'Text': text,
+            'cleaned-text' : cleaned_text,
+            'normalisasi-text' : norm_slang_text,
+            'stopwords-remove' : tanpa_stopwords,
+            'label' : sentiment_label,
+            'emotikon' : emoticon,
+        })
         analisis = True
 elif input_option == "Unggah Berkas XLSX" and uploaded_file is not None:
             emoticon = get_emoticon(sentiment_label)
             cleaned_text = clean_text(text)
             norm_slang_text = normalize_slang(cleaned_text, lookp_dict)
+            if dates in df.columns :
+                for date in dates :
+                    results_prep.append({
+                        'Date' : date,
+                        'Text': text,
+                        'cleaned-text' : cleaned_text,
+                        'normalisasi-text' : norm_slang_text,
+                        'stopwords-remove' : tanpa_stopwords,
+                        'label' : sentiment_label,
+                        'emotikon' : emoticon,
+                    })
+            else :
+                results_prep.append({
+                    'Text': text,
+                    'cleaned-text' : cleaned_text,
+                    'normalisasi-text' : norm_slang_text,
+                    'stopwords-remove' : tanpa_stopwords,
+                    'label' : sentiment_label,
+                    'emotikon' : emoticon,
+                })
             analisis = True
     else:
 st.info('Tekan "Analysis" kembali jika tampilan menghilang', icon = 'ℹ️')
 if results and analisis == True:
+    df_results = pd.DataFrame(results)
     # Membagi tampilan menjadi dua kolom
     columns = st.columns(2)
     # Kolom pertama untuk Word Cloud
     with columns[0]:
+        st.write("Wordclouds")
+        all_texts = [result['stopwords-remove'] for result in results if result['stopwords-remove'] is not None and not pd.isna(result['stopwords-remove'])]
+        all_texts = " ".join(all_texts)
+        if all_texts:
+            wordcloud = WordCloud(width=800, height=660, background_color='white',
+                                  colormap=colormap,   # Warna huruf
+                                  contour_color='black',  # Warna kontur
+                                  contour_width=2,       # Lebar kontur
+                                  mask=None,             # Gunakan mask untuk bentuk kustom
+                                  ).generate(all_texts)
+            st.image(wordcloud.to_array())
+        else:
+            st.write("Tidak ada data untuk ditampilkan dalam Word Cloud.")
+    if 'Date' in df_results.columns:
+        with columns[1]:
+            buat_chart(df_results, target_year)
     # Kolom kedua untuk Bar Chart
     with columns[1]:
+        st.write("Bar Chart :")
+        # Menentukan warna untuk setiap kategori dalam kolom 'score'
+        warna_label = {
+            'Negatif': '#FF9AA2',
+            'Netral': '#FFDAC1',
+            'Positif': '#B5EAD7'
+        }
+        # Menyiapkan label kelas
+        class_labels = ["Negatif", "Netral", "Positif"]
+        # Menghitung nilai hitungan per label
+        value_counts = df_results["label"].value_counts()
+        # Mengurutkan nilai hitungan berdasarkan label
+        value_counts = value_counts.reindex(class_labels)
+        st.bar_chart(
+            x=value_counts.index, y=value_counts.values,
+            color=[warna_label[label] for label in class_labels]
+        )
     # Menampilkan hasil analisis sentimen dalam kotak yang dapat diperluas
     with st.expander("Hasil Analisis Sentimen"):
         # Tampilkan tabel hasil analisis sentimen
+        st.write(pd.DataFrame(results))
     if results:
         # Simpan DataFrame ke dalam file CSV
+        df = pd.DataFrame(results)
         csv = df.to_csv(index=False)
         # Tampilkan tombol unduh CSV