Implemented XGBoost in Python and R

tanvirrazin · tanvirrazin · commit 314d1ac2ad4a · 2017-04-14T23:43:52.000+06:00
diff --git a/part_10-model-selection-and-boosting/xgboost/xgboost.R b/part_10-model-selection-and-boosting/xgboost/xgboost.R
@@ -0,0 +1,49 @@
+# Importing the dataset
+# ---------------------
+dataset = read.csv('../../data_files/Churn_Modelling.csv')
+dataset = dataset[4:14]
+
+# Encoding the categorical variables as factor
+dataset$Geography = as.numeric(factor(dataset$Geography,
+                                      levels=c('France', 'Spain', 'Germany'),
+                                      labels=c(1, 2, 3)))
+dataset$Gender = as.numeric(factor(dataset$Gender,
+                                   levels=c('Female', 'Male'),
+                                   labels=c(1, 2)))
+
+# Splitting the dataset into the Training set and Test set
+# --------------------------------------------------------
+# install.packages('caTools')
+library(caTools)
+set.seed(123)
+split = sample.split(dataset$Exited, SplitRatio = 0.8)
+training_set = subset(dataset, split==TRUE)
+test_set = subset(dataset, split==FALSE)
+
+# Fitting XGBoost to the Training set
+# -----------------------------------
+library(xgboost)
+classifier = xgboost(
+    data=as.matrix(training_set[-11]),
+    label=training_set$Exited,
+    nrounds=10
+)
+
+# Applying k-Fold Cross Validation
+library(caret)
+folds = createFolds(training_set$Purchased, k=10)
+cv = lapply(folds, function(x) {
+    training_fold = training_set[-x, ]
+    test_fold = training_set[x, ]
+    classifier = xgboost(
+        data=as.matrix(training_set[-11]),
+        label=training_set$Exited,
+        nrounds=10
+    )
+    y_pred = predict(classifier, newdata=as.matrix(test_fold[-11]))
+    y_pred = (y_pred >= 0.5)
+    cm = table(test_fold[, 3], y_pred)
+    accuracy = (cm[1, 1] + cm[2, 2]) / (cm[1, 1] + cm[2, 2] + cm[1, 2] + cm[2, 1])
+    return(accuracy)
+})
+accuracy = mean(as.numeric(cv))
diff --git a/part_10-model-selection-and-boosting/xgboost/xgboost.py b/part_10-model-selection-and-boosting/xgboost/xgboost.py
@@ -0,0 +1,43 @@
+# Importing the libraries
+import numpy as np
+import matplotlib.pyplot as plt
+import pandas as pd
+
+# Importing the dataset
+dataset = pd.read_csv('../../data_files/Churn_Modelling.csv')
+X = dataset.iloc[:, 3:13].values
+y = dataset.iloc[:, 13].values
+
+# ------ Part-1: Data preprocessing ----------
+
+# Encoding categorical data
+from sklearn.preprocessing import LabelEncoder, OneHotEncoder
+labelencoder_X_1 = LabelEncoder()
+X[:, 1] = labelencoder_X_1.fit_transform(X[:, 1])
+labelencoder_X_2 = LabelEncoder()
+X[:, 2] = labelencoder_X_2.fit_transform(X[:, 2])
+onehotencoder = OneHotEncoder(categorical_features=[1])
+X = onehotencoder.fit_transform(X).toarray()
+X = X[:, 1:]
+
+# Splitting the dataset into the Training set and Test set
+from sklearn.model_selection import train_test_split
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
+
+# Fitting XGBoost to the Training set
+from xgboost import XGBClassifier
+classifier = XGBClassifier()
+classifier.fit(X_train, y_train)
+
+# Predicting the Test set results
+y_pred = classifier.predict(X_test)
+
+# Making the confusion Matrix
+from sklearn.metrics import confusion_matrix
+cm = confusion_matrix(y_test, y_pred)
+
+# Applying K-Fold Cross Validation
+from sklearn.model_selection import cross_val_score
+accuracies = cross_val_score(estimator=classifier, X=X_train, y=y_train, cv=10)
+accuracies.mean()
+accuracies.std()