Malicious_Website_detection

Sleeping

App Files Files Community

RYU-KASH commited on May 1

Commit

902cf4a

•

1 Parent(s): ccae435

Upload 3 files

Browse files

Files changed (3) hide show

app.py +728 -0
phishing.csv +0 -0
phishing.txt +0 -0

app.py ADDED Viewed

	@@ -0,0 +1,728 @@

+import numpy as np # linear algebra
+import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
+import matplotlib.pyplot as plt
+#%matplotlib inline
+import seaborn as sns
+from sklearn import metrics
+import warnings
+warnings.filterwarnings('ignore')
+data = pd.read_csv('phishing.csv')
+data.head(20)
+data.columns
+len(data.columns)
+data.isnull().sum()
+X = data.drop(["class","Index"],axis =1)
+y = data["class"]
+fig, ax = plt.subplots(1, 1, figsize=(15, 9))
+sns.heatmap(data.corr(), annot=True,cmap='viridis')
+plt.title('Correlation between different features', fontsize = 15, c='black')
+plt.show()
+corr=data.corr()
+corr.head()
+corr['class']=abs(corr['class'])
+corr.head()
+incCorr=corr.sort_values(by='class',ascending=False)
+incCorr.head()
+incCorr['class']
+tenfeatures=incCorr[1:11].index
+twenfeatures=incCorr[1:21].index
+#Structutre to Store metrics
+ML_Model = []
+accuracy = []
+f1_score = []
+precision = []
+def storeResults(model, a,b,c):
+  ML_Model.append(model)
+  accuracy.append(round(a, 3))
+  f1_score.append(round(b, 3))
+  precision.append(round(c, 3))
+def KNN(X):
+  x=[a for a in range(1,10,2)]
+  knntrain=[]
+  knntest=[]
+  from sklearn.model_selection import train_test_split
+  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
+  X_train.shape, y_train.shape, X_test.shape, y_test.shape
+  for i in range(1,10,2):
+    from sklearn.neighbors import KNeighborsClassifier
+    knn = KNeighborsClassifier(n_neighbors=i)
+    knn.fit(X_train,y_train)
+    y_train_knn = knn.predict(X_train)
+    y_test_knn = knn.predict(X_test)
+    acc_train_knn = metrics.accuracy_score(y_train,y_train_knn)
+    acc_test_knn = metrics.accuracy_score(y_test,y_test_knn)
+    print("K-Nearest Neighbors with k={}: Accuracy on training Data: {:.3f}".format(i,acc_train_knn))
+    print("K-Nearest Neighbors with k={}: Accuracy on test Data: {:.3f}".format(i,acc_test_knn))
+    knntrain.append(acc_train_knn)
+    knntest.append(acc_test_knn)
+    print()
+  import matplotlib.pyplot as plt
+  plt.plot(x,knntrain,label="Train accuracy")
+  plt.plot(x,knntest,label="Test accuracy")
+  plt.legend()
+  plt.show()
+Xmain=X
+Xten=X[tenfeatures]
+Xtwen=X[twenfeatures]
+KNN(Xmain)
+KNN(Xten)
+KNN(Xtwen)
+from sklearn.model_selection import train_test_split
+from sklearn.neighbors import KNeighborsClassifier
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
+X_train.shape, y_train.shape, X_test.shape, y_test.shape
+knn = KNeighborsClassifier(n_neighbors=5)
+knn.fit(X_train,y_train)
+y_train_knn = knn.predict(X_train)
+y_test_knn = knn.predict(X_test)
+acc_train_knn = metrics.accuracy_score(y_train,y_train_knn)
+acc_test_knn = metrics.accuracy_score(y_test,y_test_knn)
+f1_score_train_knn = metrics.f1_score(y_train,y_train_knn)
+f1_score_test_knn = metrics.f1_score(y_test,y_test_knn)
+precision_score_train_knn = metrics.precision_score(y_train,y_train_knn)
+precision_score_test_knn = metrics.precision_score(y_test,y_test_knn)
+storeResults('K-Nearest Neighbors',acc_test_knn,f1_score_test_knn,precision_score_train_knn)
+def SVM(X, y):
+    x=[a for a in range(1,10,2)]
+    svmtrain=[]
+    svmtest=[]
+    from sklearn.model_selection import train_test_split
+    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
+    X_train.shape, y_train.shape, X_test.shape, y_test.shape
+    from sklearn.svm import SVC
+    for i in range(1,10,2):
+        svm = SVC(kernel='linear', C=i)
+        svm.fit(X_train, y_train)
+        y_train_svm = svm.predict(X_train)
+        y_test_svm = svm.predict(X_test)
+        acc_train_svm = metrics.accuracy_score(y_train, y_train_svm)
+        acc_test_svm = metrics.accuracy_score(y_test, y_test_svm)
+        print("SVM with C={}: Accuracy on training Data: {:.3f}".format(i,acc_train_svm))
+        print("SVM with C={}: Accuracy on test Data: {:.3f}".format(i,acc_test_svm))
+        svmtrain.append(acc_train_svm)
+        svmtest.append(acc_test_svm)
+        print()
+    import matplotlib.pyplot as plt
+    plt.plot(x,svmtrain,label="Train accuracy")
+    plt.plot(x,svmtest,label="Test accuracy")
+    plt.legend()
+    plt.show()
+Xmain=X
+Xten=X[tenfeatures]
+Xtwen=X[twenfeatures]
+SVM(Xmain,y)
+SVM(Xten,y)
+SVM(Xtwen,y)
+from sklearn.model_selection import train_test_split
+from sklearn.svm import SVC
+from sklearn import metrics
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+svm = SVC(kernel='linear', C=1, random_state=42)
+svm.fit(X_train, y_train)
+y_train_svm = svm.predict(X_train)
+y_test_svm = svm.predict(X_test)
+acc_train_svm = metrics.accuracy_score(y_train, y_train_svm)
+acc_test_svm = metrics.accuracy_score(y_test, y_test_svm)
+f1_score_train_svm = metrics.f1_score(y_train, y_train_svm)
+f1_score_test_svm = metrics.f1_score(y_test, y_test_svm)
+precision_score_train_svm = metrics.precision_score(y_train, y_train_svm)
+precision_score_test_svm = metrics.precision_score(y_test, y_test_svm)
+print("SVM with C={}: Accuracy on training data: {:.3f}".format(1, acc_train_svm))
+print("SVM with C={}: Accuracy on test data: {:.3f}".format(1, acc_test_svm))
+print("SVM with C={}: F1 score on training data: {:.3f}".format(1, f1_score_train_svm))
+print("SVM with C={}: F1 score on test data: {:.3f}".format(1, f1_score_test_svm))
+print("SVM with C={}: Precision on training data: {:.3f}".format(1, precision_score_train_svm))
+print("SVM with C={}: Precision on test data: {:.3f}".format(1, precision_score_test_svm))
+storeResults('Support Vector Machines',acc_test_svm,f1_score_test_svm,precision_score_train_svm)
+from sklearn.model_selection import train_test_split
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
+X_train.shape, y_train.shape, X_test.shape, y_test.shape
+from sklearn.ensemble import GradientBoostingClassifier
+gbc = GradientBoostingClassifier(max_depth=4,learning_rate=0.7)
+gbc.fit(X_train,y_train)
+y_train_gbc = gbc.predict(X_train)
+y_test_gbc = gbc.predict(X_test)
+acc_train_gbc = metrics.accuracy_score(y_train,y_train_gbc)
+acc_test_gbc = metrics.accuracy_score(y_test,y_test_gbc)
+print("Gradient Boosting Classifier : Accuracy on training Data: {:.3f}".format(acc_train_gbc))
+print("Gradient Boosting Classifier : Accuracy on test Data: {:.3f}".format(acc_test_gbc))
+print()
+f1_score_train_gbc = metrics.f1_score(y_train,y_train_gbc)
+f1_score_test_gbc = metrics.f1_score(y_test,y_test_gbc)
+precision_score_train_gbc = metrics.precision_score(y_train,y_train_gbc)
+precision_score_test_gbc = metrics.precision_score(y_test,y_test_gbc)
+storeResults('Gradient Boosting Classifier',acc_test_gbc,f1_score_test_gbc,precision_score_train_gbc)
+df = pd.DataFrame({
+    'Modelname': ML_Model,
+    'Accuracy Score': accuracy,
+    'F1 Score': f1_score,
+    'Precision Score': precision
+})
+df.set_index('Modelname', inplace=True)
+# plot the scores for each model
+fig, ax = plt.subplots(figsize=(10,10))
+df.plot(kind='bar', ax=ax)
+ax.set_xticklabels(df.index, rotation=0)
+ax.set_ylim([0.9, 1])
+ax.set_yticks([0.9,0.91,0.92,0.93,0.94,0.95,0.96,0.97,0.98,0.99,1])
+ax.set_xlabel('Model')
+ax.set_ylabel('Score')
+ax.set_title('Model Scores')
+plt.show()
+import whois
+import googlesearch
+import ipaddress
+import re
+import urllib.request
+from bs4 import BeautifulSoup
+import socket
+import requests
+import google
+import whois
+from datetime import date, datetime
+import time
+from dateutil.parser import parse as date_parse
+from urllib.parse import urlparse
+class FeatureExtraction:
+    features = []
+    def __init__(self,url):
+        self.features = []
+        self.url = url
+        self.domain = ""
+        self.whois_response = ""
+        self.urlparse = ""
+        self.response = ""
+        self.soup = ""
+        try:
+            self.response = requests.get(url)
+            self.soup = BeautifulSoup(response.text, 'html.parser')
+        except:
+            pass
+        try:
+            self.urlparse = urlparse(url)
+            self.domain = self.urlparse.netloc
+        except:
+            pass
+        try:
+            self.whois_response = whois.whois(self.domain)
+        except:
+            pass
+        self.features.append(self.UsingIp())
+        self.features.append(self.longUrl())
+        self.features.append(self.shortUrl())
+        self.features.append(self.symbol())
+        self.features.append(self.redirecting())
+        self.features.append(self.prefixSuffix())
+        self.features.append(self.SubDomains())
+        self.features.append(self.Hppts())
+        self.features.append(self.DomainRegLen())
+        self.features.append(self.Favicon())
+        self.features.append(self.NonStdPort())
+        self.features.append(self.HTTPSDomainURL())
+        self.features.append(self.RequestURL())
+        self.features.append(self.AnchorURL())
+        self.features.append(self.LinksInScriptTags())
+        self.features.append(self.ServerFormHandler())
+        self.features.append(self.InfoEmail())
+        self.features.append(self.AbnormalURL())
+        self.features.append(self.WebsiteForwarding())
+        self.features.append(self.StatusBarCust())
+        self.features.append(self.DisableRightClick())
+        self.features.append(self.UsingPopupWindow())
+        self.features.append(self.IframeRedirection())
+        self.features.append(self.AgeofDomain())
+        self.features.append(self.DNSRecording())
+        self.features.append(self.WebsiteTraffic())
+        self.features.append(self.PageRank())
+        self.features.append(self.GoogleIndex())
+        self.features.append(self.LinksPointingToPage())
+        self.features.append(self.StatsReport())
+     # 1.UsingIp
+    def UsingIp(self):
+        try:
+            ipaddress.ip_address(self.url)
+            return -1
+        except:
+            return 1
+    # 2.longUrl
+    def longUrl(self):
+        if len(self.url) < 54:
+            return 1
+        if len(self.url) >= 54 and len(self.url) <= 75:
+            return 0
+        return -1
+    # 3.shortUrl
+    def shortUrl(self):
+        match = re.search('bit\.ly|goo\.gl|shorte\.st|go2l\.ink|x\.co|ow\.ly|t\.co|tinyurl|tr\.im|is\.gd|cli\.gs|'
+                    'yfrog\.com|migre\.me|ff\.im|tiny\.cc|url4\.eu|twit\.ac|su\.pr|twurl\.nl|snipurl\.com|'
+                    'short\.to|BudURL\.com|ping\.fm|post\.ly|Just\.as|bkite\.com|snipr\.com|fic\.kr|loopt\.us|'
+                    'doiop\.com|short\.ie|kl\.am|wp\.me|rubyurl\.com|om\.ly|to\.ly|bit\.do|t\.co|lnkd\.in|'
+                    'db\.tt|qr\.ae|adf\.ly|goo\.gl|bitly\.com|cur\.lv|tinyurl\.com|ow\.ly|bit\.ly|ity\.im|'
+                    'q\.gs|is\.gd|po\.st|bc\.vc|twitthis\.com|u\.to|j\.mp|buzurl\.com|cutt\.us|u\.bb|yourls\.org|'
+                    'x\.co|prettylinkpro\.com|scrnch\.me|filoops\.info|vzturl\.com|qr\.net|1url\.com|tweez\.me|v\.gd|tr\.im|link\.zip\.net', self.url)
+        if match:
+            return -1
+        return 1
+    # 4.Symbol@
+    def symbol(self):
+        if re.findall("@",self.url):
+            return -1
+        return 1
+    # 5.Redirecting//
+    def redirecting(self):
+        if self.url.rfind('//')>6:
+            return -1
+        return 1
+    # 6.prefixSuffix
+    def prefixSuffix(self):
+        try:
+            match = re.findall('\-', self.domain)
+            if match:
+                return -1
+            return 1
+        except:
+            return -1
+    # 7.SubDomains
+    def SubDomains(self):
+        dot_count = len(re.findall("\.", self.url))
+        if dot_count == 1:
+            return 1
+        elif dot_count == 2:
+            return 0
+        return -1
+    # 8.HTTPS
+    def Hppts(self):
+        try:
+            https = self.urlparse.scheme
+            if 'https' in https:
+                return 1
+            return -1
+        except:
+            return 1
+    # 9.DomainRegLen
+    def DomainRegLen(self):
+        try:
+            expiration_date = self.whois_response.expiration_date
+            creation_date = self.whois_response.creation_date
+            try:
+                if(len(expiration_date)):
+                    expiration_date = expiration_date[0]
+            except:
+                pass
+            try:
+                if(len(creation_date)):
+                    creation_date = creation_date[0]
+            except:
+                pass
+            age = (expiration_date.year-creation_date.year)*12+ (expiration_date.month-creation_date.month)
+            if age >=12:
+                return 1
+            return -1
+        except:
+            return -1
+    # 10. Favicon
+    def Favicon(self):
+        try:
+            for head in self.soup.find_all('head'):
+                for head.link in self.soup.find_all('link', href=True):
+                    dots = [x.start(0) for x in re.finditer('\.', head.link['href'])]
+                    if self.url in head.link['href'] or len(dots) == 1 or domain in head.link['href']:
+                        return 1
+            return -1
+        except:
+            return -1
+    # 11. NonStdPort
+    def NonStdPort(self):
+        try:
+            port = self.domain.split(":")
+            if len(port)>1:
+                return -1
+            return 1
+        except:
+            return -1
+    # 12. HTTPSDomainURL
+    def HTTPSDomainURL(self):
+        try:
+            if 'https' in self.domain:
+                return -1
+            return 1
+        except:
+            return -1
+    # 13. RequestURL
+    def RequestURL(self):
+        try:
+            for img in self.soup.find_all('img', src=True):
+                dots = [x.start(0) for x in re.finditer('\.', img['src'])]
+                if self.url in img['src'] or self.domain in img['src'] or len(dots) == 1:
+                    success = success + 1
+                i = i+1
+            for audio in self.soup.find_all('audio', src=True):
+                dots = [x.start(0) for x in re.finditer('\.', audio['src'])]
+                if self.url in audio['src'] or self.domain in audio['src'] or len(dots) == 1:
+                    success = success + 1
+                i = i+1
+            for embed in self.soup.find_all('embed', src=True):
+                dots = [x.start(0) for x in re.finditer('\.', embed['src'])]
+                if self.url in embed['src'] or self.domain in embed['src'] or len(dots) == 1:
+                    success = success + 1
+                i = i+1
+            for iframe in self.soup.find_all('iframe', src=True):
+                dots = [x.start(0) for x in re.finditer('\.', iframe['src'])]
+                if self.url in iframe['src'] or self.domain in iframe['src'] or len(dots) == 1:
+                    success = success + 1
+                i = i+1
+            try:
+                percentage = success/float(i) * 100
+                if percentage < 22.0:
+                    return 1
+                elif((percentage >= 22.0) and (percentage < 61.0)):
+                    return 0
+                else:
+                    return -1
+            except:
+                return 0
+        except:
+            return -1
+    # 14. AnchorURL
+    def AnchorURL(self):
+        try:
+            i,unsafe = 0,0
+            for a in self.soup.find_all('a', href=True):
+                if "#" in a['href'] or "javascript" in a['href'].lower() or "mailto" in a['href'].lower() or not (url in a['href'] or self.domain in a['href']):
+                    unsafe = unsafe + 1
+                i = i + 1
+            try:
+                percentage = unsafe / float(i) * 100
+                if percentage < 31.0:
+                    return 1
+                elif ((percentage >= 31.0) and (percentage < 67.0)):
+                    return 0
+                else:
+                    return -1
+            except:
+                return -1
+        except:
+            return -1
+    # 15. LinksInScriptTags
+    def LinksInScriptTags(self):
+        try:
+            i,success = 0,0
+            for link in self.soup.find_all('link', href=True):
+                dots = [x.start(0) for x in re.finditer('\.', link['href'])]
+                if self.url in link['href'] or self.domain in link['href'] or len(dots) == 1:
+                    success = success + 1
+                i = i+1
+            for script in self.soup.find_all('script', src=True):
+                dots = [x.start(0) for x in re.finditer('\.', script['src'])]
+                if self.url in script['src'] or self.domain in script['src'] or len(dots) == 1:
+                    success = success + 1
+                i = i+1
+            try:
+                percentage = success / float(i) * 100
+                if percentage < 17.0:
+                    return 1
+                elif((percentage >= 17.0) and (percentage < 81.0)):
+                    return 0
+                else:
+                    return -1
+            except:
+                return 0
+        except:
+            return -1
+    # 16. ServerFormHandler
+    def ServerFormHandler(self):
+        try:
+            if len(self.soup.find_all('form', action=True))==0:
+                return 1
+            else :
+                for form in self.soup.find_all('form', action=True):
+                    if form['action'] == "" or form['action'] == "about:blank":
+                        return -1
+                    elif self.url not in form['action'] and self.domain not in form['action']:
+                        return 0
+                    else:
+                        return 1
+        except:
+            return -1
+    # 17. InfoEmail
+    def InfoEmail(self):
+        try:
+            if re.findall(r"[mail\(\)|mailto:?]", self.soap):
+                return -1
+            else:
+                return 1
+        except:
+            return -1
+    # 18. AbnormalURL
+    def AbnormalURL(self):
+        try:
+            if self.response.text == self.whois_response:
+                return 1
+            else:
+                return -1
+        except:
+            return -1
+    # 19. WebsiteForwarding
+    def WebsiteForwarding(self):
+        try:
+            if len(self.response.history) <= 1:
+                return 1
+            elif len(self.response.history) <= 4:
+                return 0
+            else:
+                return -1
+        except:
+             return -1
+    # 20. StatusBarCust
+    def StatusBarCust(self):
+        try:
+            if re.findall("<script>.+onmouseover.+</script>", self.response.text):
+                return 1
+            else:
+                return -1
+        except:
+             return -1
+    # 21. DisableRightClick
+    def DisableRightClick(self):
+        try:
+            if re.findall(r"event.button ?== ?2", self.response.text):
+                return 1
+            else:
+                return -1
+        except:
+             return -1
+    # 22. UsingPopupWindow
+    def UsingPopupWindow(self):
+        try:
+            if re.findall(r"alert\(", self.response.text):
+                return 1
+            else:
+                return -1
+        except:
+             return -1
+    # 23. IframeRedirection
+    def IframeRedirection(self):
+        try:
+            if re.findall(r"[<iframe>|<frameBorder>]", self.response.text):
+                return 1
+            else:
+                return -1
+        except:
+             return -1
+    # 24. AgeofDomain
+    def AgeofDomain(self):
+        try:
+            creation_date = self.whois_response.creation_date
+            try:
+                if(len(creation_date)):
+                    creation_date = creation_date[0]
+            except:
+                pass
+            today  = date.today()
+            age = (today.year-creation_date.year)*12+(today.month-creation_date.month)
+            if age >=6:
+                return 1
+            return -1
+        except:
+            return -1
+    # 25. DNSRecording
+    def DNSRecording(self):
+        try:
+            creation_date = self.whois_response.creation_date
+            try:
+                if(len(creation_date)):
+                    creation_date = creation_date[0]
+            except:
+                pass
+            today  = date.today()
+            age = (today.year-creation_date.year)*12+(today.month-creation_date.month)
+            if age >=6:
+                return 1
+            return -1
+        except:
+            return -1
+    # 26. WebsiteTraffic
+    def WebsiteTraffic(self):
+        try:
+            rank = BeautifulSoup(urllib.request.urlopen("http://data.alexa.com/data?cli=10&dat=s&url=" + url).read(), "xml").find("REACH")['RANK']
+            if (int(rank) < 100000):
+                return 1
+            return 0
+        except :
+            return -1
+    # 27. PageRank
+    def PageRank(self):
+        try:
+            prank_checker_response = requests.post("https://www.checkpagerank.net/index.php", {"name": self.domain})
+            global_rank = int(re.findall(r"Global Rank: ([0-9]+)", rank_checker_response.text)[0])
+            if global_rank > 0 and global_rank < 100000:
+                return 1
+            return -1
+        except:
+            return -1
+    # 28. GoogleIndex
+    def GoogleIndex(self):
+        try:
+            site = search(self.url, 5)
+            if site:
+                return 1
+            else:
+                return -1
+        except:
+            return 1
+    # 29. LinksPointingToPage
+    def LinksPointingToPage(self):
+        try:
+            number_of_links = len(re.findall(r"<a href=", self.response.text))
+            if number_of_links == 0:
+                return 1
+            elif number_of_links <= 2:
+                return 0
+            else:
+                return -1
+        except:
+            return -1
+    # 30. StatsReport
+    def StatsReport(self):
+        try:
+            url_match = re.search(
+        'at\.ua|usa\.cc|baltazarpresentes\.com\.br|pe\.hu|esy\.es|hol\.es|sweddy\.com|myjino\.ru|96\.lt|ow\.ly', url)
+            ip_address = socket.gethostbyname(self.domain)
+            ip_match = re.search('146\.112\.61\.108|213\.174\.157\.151|121\.50\.168\.88|192\.185\.217\.116|78\.46\.211\.158|181\.174\.165\.13|46\.242\.145\.103|121\.50\.168\.40|83\.125\.22\.219|46\.242\.145\.98|'
+                                '107\.151\.148\.44|107\.151\.148\.107|64\.70\.19\.203|199\.184\.144\.27|107\.151\.148\.108|107\.151\.148\.109|119\.28\.52\.61|54\.83\.43\.69|52\.69\.166\.231|216\.58\.192\.225|'
+                                '118\.184\.25\.86|67\.208\.74\.71|23\.253\.126\.58|104\.239\.157\.210|175\.126\.123\.219|141\.8\.224\.221|10\.10\.10\.10|43\.229\.108\.32|103\.232\.215\.140|69\.172\.201\.153|'
+                                '216\.218\.185\.162|54\.225\.104\.146|103\.243\.24\.98|199\.59\.243\.120|31\.170\.160\.61|213\.19\.128\.77|62\.113\.226\.131|208\.100\.26\.234|195\.16\.127\.102|195\.16\.127\.157|'
+                                '34\.196\.13\.28|103\.224\.212\.222|172\.217\.4\.225|54\.72\.9\.51|192\.64\.147\.141|198\.200\.56\.183|23\.253\.164\.103|52\.48\.191\.26|52\.214\.197\.72|87\.98\.255\.18|209\.99\.17\.27|'
+                                '216\.38\.62\.18|104\.130\.124\.96|47\.89\.58\.141|78\.46\.211\.158|54\.86\.225\.156|54\.82\.156\.19|37\.157\.192\.102|204\.11\.56\.48|110\.34\.231\.42', ip_address)
+            if url_match:
+                return -1
+            elif ip_match:
+                return -1
+            return 1
+        except:
+            return 1
+    def getFeaturesList(self):
+        return self.features
+gbc = GradientBoostingClassifier(max_depth=4,learning_rate=0.7)
+gbc.fit(X_train,y_train)
+url=input("Enter the Url:")
+#can provide any URL. this URL was taken from PhishTank
+obj = FeatureExtraction(url)
+x = np.array(obj.getFeaturesList()).reshape(1,30)
+y_pred =gbc.predict(x)[0]
+if y_pred==1:
+  print("We guess it is a safe website")
+else:
+  print("Caution! Suspicious website detected")

phishing.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

phishing.txt ADDED Viewed

The diff for this file is too large to render. See raw diff