sitemap-to-df-advertoolsv2

Sleeping

App Files Files Community

blazingbunny commited on Aug 10, 2023

Commit

22822be

•

0 Parent(s):

Duplicate from blazingbunny/sitemap-to-df-advertools

Browse files

Files changed (4) hide show

.gitattributes +35 -0
README.md +13 -0
app.py +48 -0
requirements.txt +5 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Sitemap To Df Advertools
+emoji: 🔥
+colorFrom: pink
+colorTo: green
+sdk: streamlit
+sdk_version: 1.25.0
+app_file: app.py
+pinned: false
+duplicated_from: blazingbunny/sitemap-to-df-advertools
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,48 @@

+# Importing libraries
+import streamlit as st
+from advertools import sitemap_to_df
+# Function to safely extract the category from the sitemap URL
+def extract_category(url, index):
+    parts = url.split('/')
+    return parts[index] if len(parts) > index else 'Unknown'
+# Title
+st.title("Sitemap Analyzer")
+# Input for URL in the left sidebar
+sitemap_url = st.sidebar.text_input("Enter the sitemap URL:", "")
+category_index = st.sidebar.number_input("Enter the index of the category folder in the URL:", min_value=0, value=4, step=1)
+# Check if the URL is provided
+if sitemap_url:
+    # Fetching the sitemap data
+    try:
+        sitemap_data = sitemap_to_df(sitemap_url)
+        st.write("Sitemap successfully retrieved!")
+        # Extracting the sitemap category from the "loc" column using the specified index
+        sitemap_data['sitemap_cat'] = sitemap_data['loc'].apply(lambda x: extract_category(x, category_index))
+        st.dataframe(sitemap_data) # Displaying the DataFrame
+        # Number of articles per category
+        category_count = sitemap_data['sitemap_cat'].value_counts().reset_index()
+        category_count.columns = ['Category', 'Number of URLs']
+        st.subheader("Number of articles per category:")
+        st.dataframe(category_count)
+        # Categories where "lastmod" is not available
+        nat_values = sitemap_data[sitemap_data['lastmod'].isna()]['sitemap_cat'].value_counts().reset_index()
+        nat_values.columns = ['Category', 'Number of NaT']
+        st.subheader("Categories where 'lastmod' is not available:")
+        st.dataframe(nat_values)
+        # Unique categories where "lastmod" is not available
+        unique_nat_categories = nat_values['Category'].nunique()
+        st.subheader("Number of unique categories where 'lastmod' is not available:")
+        st.write(unique_nat_categories)
+    except Exception as e:
+        st.write("An error occurred:", str(e))
+else:
+    st.write("Please enter a sitemap URL to analyze.")

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit
+advertools
+plotly
+pandas
+matplotlib