Spaces:

karasu1982
/

IDPOS_App

Sleeping

App Files Files Community

pax-dare-lab commited on Jun 2, 2024

Commit

c4b27ba

1 Parent(s): 9860d55

First Commit

Browse files

Files changed (6) hide show

.gitattributes +1 -0
README.md +5 -11
app.py +64 -0
create_object.py +160 -0
data/online_retail.csv +3 -0
requirements.txt +5 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+data/online_retail.csv filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
----
-title: Streamlit ID-POS
-emoji: 🌍
-colorFrom: blue
-colorTo: yellow
-sdk: streamlit
-sdk_version: 1.35.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+# ID-POS分析システム
+## 利用データ
+Online Retail Dataset
+https://www.kaggle.com/datasets/ulrikthygepedersen/online-retail-dataset

app.py ADDED Viewed

	@@ -0,0 +1,64 @@

+import streamlit as st
+import pandas as pd
+import datetime
+import create_object as co
+import duckdb
+df = pd.read_csv("data/online_retail.csv")
+# データ型整備：ID項目のSTRING化など
+df = df.astype({'CustomerID': 'object'})
+df = df[df["UnitPrice"] * df["Quantity"] > 0]
+country_list = df["Country"].unique()
+st.set_page_config(
+    page_title="購買データ分析App",
+    layout="wide",
+)
+def main():
+    st.title("購買データ分析App")
+    with st.sidebar.form(key="my_form"):
+        analysis_menu = st.selectbox("分析メニュー", co.analysis_menu_list)
+        country = st.multiselect("国を選択してください。", country_list)
+        if len(country) != 0:
+            country = "','".join(country)
+            country = f"Country in ('{country}')"
+        else:
+            country = "True"
+        st.write("2010年の日付を入れてください。")
+        start_date = st.date_input("開始日", datetime.date(2010, 1, 1))
+        end_date = st.date_input("終了日", datetime.date(2010, 12, 31))
+        submit_button = st.form_submit_button(label = "分析開始")
+    if submit_button:
+         # 処理を実行
+        sql = co.create_sql(analysis_menu, country, start_date, end_date)
+        df_output = duckdb.query(sql).to_df()
+        try:
+            fig = co.create_graph(analysis_menu, df_output)
+            st.plotly_chart(fig)
+        except:
+            print("グラフ無し")
+        st.table(df_output.head(100))
+        st.write("上位100行まで、全体を見たい場合はCSVでダウンロードしてください。")
+        st.download_button(
+        "Press to Download",
+        df_output.to_csv(index=False).encode('utf-8'),
+        "file.csv",
+        "text/csv",
+        key='download-csv'
+        )
+if __name__ == '__main__':
+    main()

create_object.py ADDED Viewed

	@@ -0,0 +1,160 @@

+import plotly.graph_objects as go
+import plotly.express as px
+# 分析メニュー
+analysis_menu_list = ["ABC分析", "バスケット分析","時系列分析"]
+# 分析メニューごとのSQL
+def create_sql(analysis_menu, country, start_date, end_date):
+    if analysis_menu == "ABC分析":
+        sql = f"""
+        WITH
+        t_base AS(
+            -- 商品コードごとの売上（単価×個数）の合計値を算出
+            -- 期間を、2011年1～6月に絞る
+            SELECT
+            StockCode, Description,
+            SUM(UnitPrice * Quantity) AS SalesTotal
+            FROM df
+            WHERE CAST(InvoiceDate AS DATE) BETWEEN DATETIME '{start_date}' AND DATETIME '{end_date}'
+            AND {country}
+            GROUP BY StockCode, Description
+        ),
+        t_standard AS(
+            -- 全体の売上のうち、70%を占める売上額・90%を占める売上額を算出
+            SELECT
+            SUM(SalesTotal) AS Sum_SalesTotal,
+            FROM t_base
+        ),
+        t_cumulative AS(
+            -- 売上を降順（高い順）でソートし、先頭からの累計売上額を算出
+            SELECT
+            StockCode,
+            Description,
+            SalesTotal,
+            SUM(SalesTotal) OVER (ORDER BY SalesTotal DESC) AS SalesCumulative
+            FROM t_base
+            ORDER BY SalesTotal DESC
+        )
+        SELECT
+            StockCode,
+            Description,
+            SalesTotal,
+            SalesCumulative,
+            SalesCumulative / Sum_SalesTotal AS Percentage_SalesCumulative,
+            -- 累計売上額が売上合計の70%以下の場合はランクA、90%以下の場合はランクB、それ以降はランクCとしてランク付け
+            CASE
+            WHEN SalesCumulative / Sum_SalesTotal <= 0.7 THEN 'A'
+            WHEN SalesCumulative / Sum_SalesTotal <= 0.9 THEN 'B'
+            ELSE 'C'
+            END AS SalesRank
+        FROM t_cumulative
+        FULL OUTER JOIN t_standard
+        ON TRUE
+        ORDER BY SalesTotal desc
+        """
+    elif analysis_menu == "バスケット分析":
+        sql = f"""
+        WITH
+        t_all AS(
+        -- 総来店者数
+        SELECT
+        COUNT(DISTINCT CustomerID) AS Num_of_All
+        FROM df
+        WHERE CAST(InvoiceDate AS DATE) BETWEEN DATETIME '{start_date}' AND DATETIME '{end_date}'
+        AND {country}
+        ),
+        t_purchaser AS(
+        -- 商品ごとの購入者数
+        SELECT
+            CAST(StockCode AS STRING) AS ProductID, Description, COUNT(DISTINCT CustomerID) AS Num_of_Purchaser
+        FROM df
+        WHERE CAST(InvoiceDate AS DATE) BETWEEN DATETIME '{start_date}' AND DATETIME '{end_date}'
+        AND {country}
+        GROUP BY ProductID, Description
+        ),
+        t_simultaneous_purchaser_pre AS(
+        -- 商品ごとの同時購入者
+        SELECT
+            DISTINCT CAST(StockCode AS STRING) AS ProductID, Description, CAST(InvoiceDate AS DATE) Purchase_date, CustomerID
+        FROM df
+        WHERE CAST(InvoiceDate AS DATE) BETWEEN DATETIME '{start_date}' AND DATETIME '{end_date}'
+        AND {country}
+        ),
+        t_simultaneous_purchaser AS(
+        -- 商品ごとの同時購入者数
+        SELECT
+            t1.ProductID as ProductID_A, t1.Description AS Description_A, t2.ProductID as ProductID_B, t2.Description AS Description_B, COUNT(DISTINCT CustomerID) as Num_of_Simultaneous_Purchaser
+        FROM t_simultaneous_purchaser_pre as t1
+        INNER JOIN t_simultaneous_purchaser_pre as t2
+        USING(Purchase_date, CustomerID)
+        WHERE t1.ProductID != t2.ProductID
+        GROUP BY t1.ProductID, t1.Description, t2.ProductID, t2.Description
+        )
+        SELECT
+        ProductID_A, Description_A,
+        t_purchaser.Num_of_Purchaser AS Num_of_Purchaser_A,
+        t_purchaser.Num_of_Purchaser / Num_of_All AS PurchaseRate_A,
+        ProductID_B, Description_B,
+        t2.Num_of_Purchaser AS Num_of_Purchaser_B,
+        t2.Num_of_Purchaser / Num_of_All AS PurchaseRate_B,
+        Num_of_Simultaneous_Purchaser,
+        Num_of_Simultaneous_Purchaser / t_purchaser.Num_of_Purchaser AS CombinedSalesRate,
+        (Num_of_Simultaneous_Purchaser / t_purchaser.Num_of_Purchaser) / (t2.Num_of_Purchaser / Num_of_All) AS Lift
+        FROM t_purchaser
+        LEFT OUTER JOIN t_simultaneous_purchaser
+        ON t_purchaser.ProductID = t_simultaneous_purchaser.ProductID_A
+        AND t_purchaser.Description = t_simultaneous_purchaser.Description_A
+        LEFT OUTER JOIN t_purchaser as t2
+        ON t_simultaneous_purchaser.ProductID_B = t2.ProductID
+        AND t_simultaneous_purchaser.Description_B = t2.Description
+        FULL OUTER JOIN t_all
+        ON True
+        -- データが多くなりすぎるので、上位10商品同士の組み合わせに限定
+        WHERE
+        Description_A in (SELECT Description FROM t_purchaser ORDER BY Num_of_Purchaser DESC LIMIT 10)
+        AND
+        Description_B in (SELECT Description FROM t_purchaser ORDER BY Num_of_Purchaser DESC LIMIT 10)
+        """
+    elif analysis_menu == "時系列分析":
+        sql = f"""
+        SELECT
+        CAST(InvoiceDate AS DATE) AS YearMonthDate,
+        COUNT(DISTINCT CustomerID) AS Num_of_Purchaser,
+        SUM(Quantity) AS Total_of_Amount,
+        SUM(UnitPrice * Quantity) AS SalesTotal
+        FROM df
+        WHERE CAST(InvoiceDate AS DATE) BETWEEN DATETIME '{start_date}' AND DATETIME '{end_date}'
+        AND {country}
+        GROUP BY YearMonthDate
+        ORDER BY YearMonthDate
+        """
+    return sql
+# 分析メニューごとのグラフ
+def create_graph(analysis_menu, df):
+    if analysis_menu == "バスケット分析":
+        # ヒートマップ
+        df = df.sort_values(["Description_A","Description_B"], ascending=[True, False]).reset_index()
+        fig = go.Figure([go.Heatmap(z=df.CombinedSalesRate,
+                                 x=df.Description_A.values,
+                                 y=df.Description_B.values)])
+    elif analysis_menu == "時系列分析":
+        # 折れ線グラフ
+        fig = px.line(df, x='YearMonthDate', y='Total_of_Amount')
+    return fig

data/online_retail.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c820e928a9cb01d05738b0c36b5033ef661eccfb82f09f2e5ce8542da73b0b99
+size 48581636

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit==1.22.0
+pandas==2.0.3
+datetime==5.5
+duckdb==0.10.0
+plotly