Spaces:

not-a-clone
/

cse6242-dataminers

Running

App Files Files Community

Lirsen Myrtaj commited on Nov 30, 2022

Commit

6979b79

1 Parent(s): 7a8b853

Upload arima.py

Browse files

Files changed (1) hide show

arima.py +57 -47

arima.py CHANGED Viewed

@@ -5,68 +5,79 @@ import io
 import yfinance as yf
 from datetime import datetime
 import numpy as np
-from statsmodels.tsa.api import Holt
-from statsmodels.tsa.arima.model import ARIMA
-from statsmodels.graphics.tsaplots import plot_predict
-import matplotlib.pyplot as plt, mpld3
-from statistics import covariance
 import warnings
 warnings.filterwarnings("ignore")
-def dowanload_data():
-    url = 'https://stockmarketmba.com/stocksinthedjia.php'
-    req = requests.get(url).text
-    soup = BeautifulSoup(req, 'lxml')
-    table = soup.find('table', attrs={'id': 'ipos'})
-    df = pd.read_html(str(table))[0]
-    tickers = df['Symbol'].tolist()+['^DJI']
-    stock_final = pd.DataFrame()
-    for i in tickers:
-        print(i)
-        try:
-            stock = []
-            stock = yf.download(i, start=datetime(2017, 10, 31), end=datetime(2022, 10, 31), progress=False)
-            if len(stock) == 0:
-                None
-            else:
-                stock['Name'] = i
-                stock_final = stock_final.append(stock, sort=False)
-        except:
-            pass
-    stock_final.to_csv('djia_2017-2022.csv')
-def main(ticker):
-    df = pd.read_csv('djia_2017-2022.csv')
-    df = df[df['Name']==ticker].dropna(how='any')
-    x = np.array(df.dropna()['Date'])
-    y = np.array(df.dropna()['Close'])
-    model = ARIMA(y, order=(1,1,2))
-    model_fit = model.fit()
-    print(model_fit.summary())
-    plot_predict(model_fit, dynamic=False)
-    data = pd.Series(y, x)
-    fit1 = Holt(data).fit(smoothing_level=0.1, smoothing_slope=0.1, optimized=False)
-    # plt.plot(fit1.fittedvalues, marker="o", color="blue", label='smoothing')
-    plt.plot(x, y, label='actual')
-    plt.legend(loc="upper left")
-    step = 10
-    plt.xticks([x[i+step] for i in range(-step, len(x), step) if i+step < len(x)], rotation=90)
-    plt.title('ARIMA forecast model vs. actual for {}'.format(ticker))
-    mpld3.show()
 def stock_covariance(stocks):
@@ -89,5 +100,4 @@ def dji_covariance(stock):
 if __name__ == "__main__":
-    main('IBM')
-    # dowanload_data()

 import yfinance as yf
 from datetime import datetime
 import numpy as np
+import statsmodels.api as sm
+# import plotly.express as px
+import matplotlib.pyplot as plt
+# from statistics import covariance
 import warnings
 warnings.filterwarnings("ignore")
+import statsmodels.api as sm
+from sklearn.metrics import mean_squared_error
+import pandas as pd
+df = pd.read_csv('us-shareprices-daily.csv', sep=';')
+def get_model_accuracy(data, ticker_symbol):
+    stock_data = data[data['Ticker'] == ticker_symbol]
+    # get MSE for testing data using 85/15 split for chosen stock symbol
+    train_data, test_data = stock_data[0:int(len(stock_data)*0.85)], stock_data[int(len(stock_data)*0.85):]
+    training_data = train_data['Close'].values
+    test_data = test_data['Close'].values
+    history = [x for x in training_data]
+    model_predictions = []
+    N_test_observations = len(test_data)
+    for time_point in range(N_test_observations):
+        model = sm.tsa.statespace.SARIMAX(history, order=(1,1,1))
+        model_fit = model.fit(disp=0)
+        output = model_fit.forecast()
+        yhat = output[0]
+        model_predictions.append(yhat)
+        true_test_value = test_data[time_point]
+        history.append(true_test_value)
+    MSE_error = mean_squared_error(test_data, model_predictions)
+    return 'Testing Mean Squared Error is {}'.format(MSE_error)
+def main(tickers, earliest_date):
+    df = pd.read_csv('data_and_sp500.csv')
+    for ticker in tickers:
+        x = np.array(df['Date'])
+        y = np.array(df[ticker])
+        ticker_df = pd.concat([df['Date'], df[ticker]], axis=1)
+        model = sm.tsa.statespace.SARIMAX(ticker_df[ticker], order=(21,1,7))
+        model_fit = model.fit(disp=-1)
+        # print(model_fit.summary())
+        forecast = model_fit.forecast(7, alpha=0.05)#.predict(start=1259, end=1289)
+        data = pd.Series(y, x)
+        # plt.plot(fit1.fittedvalues, marker="o", color="blue", label='smoothing')
+        plt.plot(x, y, label='{} historical'.format(ticker))
+        plt.plot(forecast, label='{} forecast'.format(ticker))
+        plt.legend(loc="upper left")
+        step = 10
+        plt.xticks([x[i+step] for i in range(-step, len(x), step) if i+step < len(x)], rotation=90)
+    plt.title('ARIMA forecast model vs. actual for {}'.format('ticker'))
+    plt.xlim(df.shape[0]-100, df.shape[0]+21)
+    plt.show()
+    # plot_df = data.to_frame().reset_index().rename(columns={'index': 'date', 0: 'price'})
+    # plot_df.columns = ['date', 'price']
+    # print(plot_df)
+    # fig = px.line(plot_df, x='date', y='price')
+    # fig.show()
 def stock_covariance(stocks):
 if __name__ == "__main__":
+    main(['AA', 'IBM', 'AAPL', 'AMD'], '2021-01-01')