Spaces:

smith2020
/

WhatsApp-chat-analysis-summary

Runtime error

App Files Files Community

smith2020 commited on Apr 6, 2023

Commit

5221e66

1 Parent(s): 630e844

Update app.py

Browse files

Files changed (1) hide show

app.py +241 -1

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 import pandas as pd
 from io import StringIO
-import precessing_data,helper
 import matplotlib.pyplot as plt
 from collections import Counter
 import seaborn as sns
@@ -12,6 +12,246 @@ summarizer = pipeline("summarization")
 st.sidebar.title("Whatapp Chat Analysis")
 uploaded_file = st.sidebar.file_uploader("Choose a file")

 import streamlit as st
 import pandas as pd
 from io import StringIO
+#import precessing_data,helper
 import matplotlib.pyplot as plt
 from collections import Counter
 import seaborn as sns
 st.sidebar.title("Whatapp Chat Analysis")
+import re
+import pandas as pd
+def preprocess(data):
+    pattern = '\d{1,2}/\d{1,2}/\d{2,4},\s\d{1,2}:\d{2}\s-\s'
+    messages = re.split(pattern, data)[1:]
+    dates = re.findall(pattern, data)
+    df = pd.DataFrame({'user_message': messages, 'message_date': dates})
+    # convert date type
+    df['date'] = pd.to_datetime(df['message_date'], format='%d/%m/%Y, %H:%M - ')
+    users = []
+    messages = []
+    for message in df['user_message']:
+        entry = re.split('([\w\W]+?):\s', message)
+        if entry[1:]:  # user name
+            users.append(entry[1])
+            messages.append(" ".join(entry[2:]))
+        else:
+            users.append('group_notification')
+            messages.append(entry[0])
+    df['user'] = users
+    df['message'] = messages
+    df.drop(columns=['user_message'], inplace=True)
+    df['only_date'] = df['date'].dt.date
+    df['year'] = df['date'].dt.year
+    df['month_num'] = df['date'].dt.month
+    df['month'] = df['date'].dt.month_name()
+    df['day'] = df['date'].dt.day
+    df['day_name'] = df['date'].dt.day_name()
+    df['hour'] = df['date'].dt.hour
+    df['minute'] = df['date'].dt.minute
+    period = []
+    for hour in df[['day_name', 'hour']]['hour']:
+        if hour == 23:
+            period.append(str(hour) + "-" + str('00'))
+        elif hour == 0:
+            period.append(str('00') + "-" + str(hour + 1))
+        else:
+            period.append(str(hour) + "-" + str(hour + 1))
+    df['period'] = period
+    return df
+from urlextract import URLExtract
+import pandas as pd
+from collections import Counter
+ex=URLExtract()
+from wordcloud import WordCloud, STOPWORDS
+import emoji
+def fetch_stats(selected_user,df):
+    if selected_user != "Over All":
+        df=df[df["user"] == selected_user]
+    num_meassage = df.shape[0]
+    v = []
+    for i in df["message"]:
+        v.extend(i.split())
+    #num of media
+    media= df[df["message"]=="<Media omitted>\n"].shape[0]
+    # for links
+    links = []
+    for i in df["message"]:
+        links.extend(ex.find_urls(i))
+    return num_meassage,len(v),media,len(links)
+#Most Busy Users
+def m_b_u(df):
+    x=df["user"].value_counts().head()
+    # Most Busy Users Presentage
+    dl = round((df["user"].value_counts() / df.shape[0]) * 100, 2).reset_index().rename(
+        columns={"index": "name", "user": "presentage"})
+    return x,dl
+#creating wordcloud
+def create_wordcloud(selected_user,df):
+    if selected_user != "Over All":
+        df=df[df["user"] == selected_user]
+    f = open('stop_hinglish.txt','r')
+    stop_words = f.read()
+    temp = df[df['user'] != 'group_notification']
+    temp = temp[temp['message'] != '<Media omitted>\n']
+    def remove_stop_words(message):
+        y = []
+        for word in message.lower().split():
+            if word not in stop_words:
+                y.append(word)
+        return " ".join(y)
+    wc = WordCloud(width=500, height=500, min_font_size=10, background_color='white')
+    temp['message'] = temp['message'].apply(remove_stop_words)
+    df_wc = wc.generate(temp['message'].str.cat(sep=" "))
+    return df_wc
+def most_common_words(selected_user,df):
+    if selected_user != "Over All":
+        df=df[df["user"] == selected_user]
+    f = open('stop_hinglish.txt','r')
+    stop_words = f.read()
+    temp = df[df['user'] != 'group_notification']
+    temp = temp[temp['message'] != '<Media omitted>\n']
+    words = []
+    for message in temp['message']:
+        for word in message.lower().split():
+            if word not in stop_words:
+                words.append(word)
+    most_common_df = pd.DataFrame(Counter(words).most_common(20))
+    return most_common_df
+def emoji_helper(selected_user,df):
+    if selected_user != "Over All":
+        df=df[df["user"] == selected_user]
+    emojis = []
+    for message in df['message']:
+        emojis.extend([c for c in message if c in emoji.EMOJI_DATA])
+    emoji_df = pd.DataFrame(Counter(emojis).most_common(len(Counter(emojis))))
+    return emoji_df
+def time_line(selected_user,df):
+    if selected_user != "Over All":
+        df=df[df["user"] == selected_user]
+    time_line = df.groupby(["year", "month"]).count()["message"].reset_index()
+    t = []
+    for i in range(time_line.shape[0]):
+        t.append(time_line["month"][i] + "- " + str(time_line["year"][i]))
+    time_line["time_year"] = t
+    return time_line
+def daily_timeline(selected_user, df):
+    if selected_user != "Over All":
+        df = df[df["user"] == selected_user]
+    daily_timeline = df.groupby('only_date').count()['message'].reset_index()
+    return daily_timeline
+def week_activity_map(selected_user, df):
+    if selected_user != "Over All":
+        df = df[df["user"] == selected_user]
+    return df['day_name'].value_counts()
+def month_activity_map(selected_user, df):
+    if selected_user != "Over All":
+        df = df[df["user"] == selected_user]
+    return df['month'].value_counts()
+def activity_heatmap(selected_user, df):
+    if selected_user != "Over All":
+        df = df[df["user"] == selected_user]
+    user_heatmap = df.pivot_table(index='day_name', columns='period', values='message', aggfunc='count').fillna(0)
+    return user_heatmap
+# date to the message
+from urlextract import URLExtract
+def d_message(selected_user, df):
+    if selected_user != "Over All":
+        df = df[df["user"] == selected_user]
+        df = df.groupby('user')
+        df = df.get_group(selected_user)
+    import datetime
+    Previous_Date = datetime.datetime.today() - datetime.timedelta(days=1)
+    now = Previous_Date
+    now = str(now)
+    now = now[:10]
+    c = URLExtract()  # object
+    #filtered_df = df.loc[(df['date'] == now)]
+    filtered_df = df.loc[(df['date'] >= '2023-01-27')
+                         & (df['date'] < '2023-01-30')]
+    d = []
+    for i in filtered_df["message"]:
+        if c.find_urls(i) or i == '<Media omitted>\n' or i == 'This message was deleted\n':
+            continue
+        " ".join(i)
+        d.append(i[0:-1])
+    if selected_user == "Over All":
+        d = " ".join(d)
+    return d
 uploaded_file = st.sidebar.file_uploader("Choose a file")