diff --git a/book/ate/propensity_score_and_dml.ipynb b/book/ate/propensity_score_and_dml.ipynb index c2e7639..4aa819e 100644 --- a/book/ate/propensity_score_and_dml.ipynb +++ b/book/ate/propensity_score_and_dml.ipynb @@ -11,9 +11,2650 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "- Matching\n", - "- IPW, AIPW, Doubly Robust Estimator\n", - "- Double Machine Learning (비모수 버전의 Regression 처럼 활용 가능)" + "- IPW, AIPW, Doubly Robust Estimator" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Propensity Score 추정**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "출처: https://matheusfacure.github.io/python-causality-handbook/11-Propensity-Score.html" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "IPW와 AIPW, Doubly Robust 모두 Propensity Score를 활용한 개념들이기 때문에 먼저 Propensity Score부터 간단하게 구해보겠습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [], + "source": [ + "import warnings\n", + "warnings.filterwarnings('ignore')\n", + "\n", + "import pandas as pd\n", + "import numpy as np\n", + "from causalinference import CausalModel" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
schoolidinterventionachievement_scoresuccess_expectethnicitygenderfrst_in_familyschool_urbanicityschool_mindsetschool_achievementschool_ethnic_minorityschool_povertyschool_size
2597311.48082851201-0.4629450.652608-0.515202-0.1698490.173954
3435760-0.9872775131140.3345440.648586-1.3109270.224077-0.426757
996340-0.15234052210-2.2896360.1907970.875012-0.7248010.761781
44886700.358336614104-1.1153371.0530890.3157550.0545861.862187
26371611.36092064101-0.5389751.433826-0.033161-0.9822741.591641
\n", + "
" + ], + "text/plain": [ + " schoolid intervention achievement_score success_expect ethnicity \\\n", + "259 73 1 1.480828 5 1 \n", + "3435 76 0 -0.987277 5 13 \n", + "9963 4 0 -0.152340 5 2 \n", + "4488 67 0 0.358336 6 14 \n", + "2637 16 1 1.360920 6 4 \n", + "\n", + " gender frst_in_family school_urbanicity school_mindset \\\n", + "259 2 0 1 -0.462945 \n", + "3435 1 1 4 0.334544 \n", + "9963 2 1 0 -2.289636 \n", + "4488 1 0 4 -1.115337 \n", + "2637 1 0 1 -0.538975 \n", + "\n", + " school_achievement school_ethnic_minority school_poverty school_size \n", + "259 0.652608 -0.515202 -0.169849 0.173954 \n", + "3435 0.648586 -1.310927 0.224077 -0.426757 \n", + "9963 0.190797 0.875012 -0.724801 0.761781 \n", + "4488 1.053089 0.315755 0.054586 1.862187 \n", + "2637 1.433826 -0.033161 -0.982274 1.591641 " + ] + }, + "execution_count": 2, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data = pd.read_csv(\"../data/matheus_data/learning_mindset.csv\")\n", + "data.sample(5, random_state=5)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Propensity Score 계산" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [], + "source": [ + "categ = [\"ethnicity\", \"gender\", \"school_urbanicity\"]\n", + "cont = [\"school_mindset\", \"school_achievement\", \"school_ethnic_minority\", \"school_poverty\", \"school_size\"]\n", + "\n", + "data_with_categ = pd.concat([\n", + " data.drop(columns=categ), \n", + " pd.get_dummies(data[categ], columns=categ, drop_first=False)\n", + "], axis=1)" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [], + "source": [ + "from sklearn.linear_model import LogisticRegression\n", + "\n", + "T = 'intervention'\n", + "Y = 'achievement_score'\n", + "X = data_with_categ.columns.drop(['schoolid', T, Y])\n", + "\n", + "ps_model = LogisticRegression(C=1e6).fit(data_with_categ[X], data_with_categ[T])\n", + "\n", + "data_ps = data.assign(propensity_score=ps_model.predict_proba(data_with_categ[X])[:, 1])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## **IPW 및 ATE 추정**" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "from sklearn.linear_model import LogisticRegression, Ridge\n", + "from causallib.estimation.standardization import Standardization\n", + "from causallib.estimation.ipw import IPW\n", + "from causallib.estimation.doubly_robust import AIPW" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### 1) IPW로 가상(Pseudo) 모집단 생성 \n", + "\n", + "표본의 각 개체에 IPW 적용 \n" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Original Sample Size 10391\n", + "Treated Population Sample Size 10387.611324207002\n", + "Untreated(Control) Population Sample Size 10391.506162305861\n" + ] + } + ], + "source": [ + "weight_t = 1/data_ps.query(\"intervention==1\")[\"propensity_score\"]\n", + "weight_nt = 1/(1-data_ps.query(\"intervention==0\")[\"propensity_score\"])\n", + "print(\"Original Sample Size\", data.shape[0])\n", + "print(\"Treated Population Sample Size\", sum(weight_t))\n", + "print(\"Untreated(Control) Population Sample Size\", sum(weight_nt))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### 2) ATE 추정\n", + "\n", + "이제 Pseudo 집단에서의 Treat그룹과 Control그룹 각각의 Average Potential Outcome을 구하고, 이를 토대로 ATE를 추정합니다." + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Y1: 0.25981027799629486\n", + "Y0: -0.12903052783749974\n", + "ATE 0.38884080583379527\n" + ] + } + ], + "source": [ + "weight = ((data_ps[\"intervention\"]-data_ps[\"propensity_score\"]) /\n", + " (data_ps[\"propensity_score\"]*(1-data_ps[\"propensity_score\"])))\n", + "\n", + "y1_ipw = sum(data_ps.query(\"intervention==1\")[\"achievement_score\"]*weight_t) / len(data)\n", + "y0_ipw = sum(data_ps.query(\"intervention==0\")[\"achievement_score\"]*weight_nt) / len(data)\n", + "\n", + "ate_ipw = y1_ipw - y0_ipw\n", + "#ate = np.mean(weight * data_ps[\"achievement_score\"]) -> 이렇게도 ATE 계산 가능\n", + "\n", + "print(\"Y1:\", y1_ipw)\n", + "print(\"Y0:\", y0_ipw)\n", + "print(\"ATE\", np.mean(weight * data_ps[\"achievement_score\"]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**결과 해석**: \n", + "1. Treatment 받은 개인이 Treatment 받지 않은 동료보다 achievement_score가 0.38 표준편차 더 크다. (achievement_score는 표준화된 결과이기 때문에 표준 편차의 차이로 해석)\n", + "2. 아무도 Treatment 받지 않은 경우 일반적인 성취 수준이 현재보다 0.12 표준편차 더 낮다.\n", + "3. 모든 사람이 Treatment(세미나)를 받았다면 일반적인 성취 수준이 0.25 표준편차 더 높음." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "또한 ate를 나타내는 하나의 코드가 더 있다. \n", + "위의 코드에 주석처리한 부분을 그대로 실행해보면 똑같은 결과를 얻을 수 있는 것을 알 수 있다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "두 결과값이 같은 이유는 Matheus Facure(출처)의 책에서 자세히 설명되어 있다. \n", + "(참고: $ \\mathrm{ATE}=\\mathbb{E}\\!\\left[\\, Y\\,\\dfrac{T-e(X)}{e(X)\\,\\bigl(1-e(X)\\bigr)} \\right] $)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## **Doubly Robust Estimator & AIPW**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "출처: https://causallib.readthedocs.io/en/latest/causallib.estimation.doubly_robust.html?highlight=doubly" + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [], + "source": [ + "from sklearn.model_selection import KFold\n", + "from causallib.estimation.ipw import IPW\n", + "from causallib.estimation.doubly_robust import AIPW\n", + "from causallib.estimation.standardization import Standardization\n", + "from sklearn.linear_model import LogisticRegression, LinearRegression, Ridge" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [], + "source": [ + "Y = data[\"achievement_score\"]\n", + "T = data[\"intervention\"]\n", + "X = pd.get_dummies(\n", + " data[[\"school_mindset\",\"school_achievement\",\"school_ethnic_minority\",\n", + " \"school_poverty\",\"school_size\",\"ethnicity\",\"gender\",\"school_urbanicity\"]],\n", + " drop_first=False\n", + ")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "DR Estimator는 결과모형과 IPW값이 모두 필요함 \n", + "- Y값(achievement_score)을 Ridge로 예측(L2 패널티 부여) \n", + "- IPW: 로지스틱 회귀 사용" + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [], + "source": [ + "outcome_model = Standardization(learner=Ridge(alpha=1.0))\n", + "weight_model = IPW(learner=LogisticRegression(max_iter=1000),\n", + " clip_min=0.01, clip_max=0.99, use_stabilized=True)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Propensity Score를 구할 때 max_iter을 충분히 큰 숫자(1000)으로 설정해 수치 최적화가 수렴할 수 있도록 설정합니다. \n", + "또한 클리핑을 사용하여 $ \\hat{e} $가 [0.01, 0.99]에서만 존재하도록 극단 가중치를 완화합니다 (use_stabilized = True). " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### AIPW 추정" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위에서 구한 PS와 IPW를 활용하여 AIPW를 구합니다." + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
AIPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, outcome_covariates=None, outcome_model=Standardization(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, encode_treatment=False, predict_proba=False,\n",
+       "                learner=Ridge()), overlap_weighting=False, predict_proba=False, weight_covariates=None,\n",
+       "     weight_model=IPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, clip_max=0.99, clip_min=0.01, use_stabilized=True, verbose=False,\n",
+       "    learner=LogisticRegression(max_iter=1000)))
In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.
" + ], + "text/plain": [ + "AIPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, outcome_covariates=None, outcome_model=Standardization(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, encode_treatment=False, predict_proba=False,\n", + " learner=Ridge()), overlap_weighting=False, predict_proba=False, weight_covariates=None,\n", + " weight_model=IPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, clip_max=0.99, clip_min=0.01, use_stabilized=True, verbose=False,\n", + " learner=LogisticRegression(max_iter=1000)))" + ] + }, + "execution_count": 11, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "dr = AIPW(outcome_model=outcome_model, weight_model=weight_model, overlap_weighting=False)\n", + "dr.fit(X, T, Y)" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "μ1 (A=1): 0.30329930792804977\n", + "μ0 (A=0): -0.1471130386820095\n", + "ATE (DR, vanilla): 0.45041234661005924\n" + ] + } + ], + "source": [ + "pop_outcomes = dr.estimate_population_outcome(X, T, Y)\n", + "mu1_aipw, mu0_aipw = pop_outcomes[1], pop_outcomes[0]\n", + "ate_aipw = dr.estimate_effect(mu1_aipw, mu0_aipw, agg=\"population\")[\"diff\"]\n", + "print(\"μ1 (A=1):\", mu1_aipw)\n", + "print(\"μ0 (A=0):\", mu0_aipw)\n", + "print(\"ATE (DR, vanilla):\", ate_aipw)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "**결과 해석**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "결과 해석은 IPW에서와 마찬가지로 생각하면 됩니다. " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위에서 구한 AIPW는 Propensity Score의 Overlap이 충분히 확보되었을 때는 좋은 결과를 나타냅니다. \n", + "하지만 Overlap 구간이 불안정할 때는 Overlap-weighting = True이라는 기능을 활용해도 좋습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
AIPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, outcome_covariates=None, outcome_model=Standardization(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, encode_treatment=False, predict_proba=False,\n",
+       "                learner=Ridge()), overlap_weighting=True, predict_proba=False, weight_covariates=None,\n",
+       "     weight_model=IPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, clip_max=0.99, clip_min=0.01, use_stabilized=True, verbose=False,\n",
+       "    learner=LogisticRegression(max_iter=1000)))
In a Jupyter environment, please rerun this cell to show the HTML representation or trust the notebook.
On GitHub, the HTML representation is unable to render, please try loading this page with nbviewer.org.
" + ], + "text/plain": [ + "AIPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, outcome_covariates=None, outcome_model=Standardization(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, encode_treatment=False, predict_proba=False,\n", + " learner=Ridge()), overlap_weighting=True, predict_proba=False, weight_covariates=None,\n", + " weight_model=IPW(_doc_link_module=sklearn, _doc_link_template=https://scikit-learn.org/1.5/modules/generated/{estimator_module}.{estimator_name}.html, _doc_link_url_param_generator=None, clip_max=0.99, clip_min=0.01, use_stabilized=True, verbose=False,\n", + " learner=LogisticRegression(max_iter=1000)))" + ] + }, + "execution_count": 13, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "dr_overlap = AIPW(outcome_model=outcome_model,\n", + " weight_model=weight_model,\n", + " overlap_weighting=True)\n", + "dr_overlap.fit(X, T, Y)" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " ATE(DR, overlap-weighting): 0.3467411782171299\n" + ] + } + ], + "source": [ + "pop_outcomes_ov = dr_overlap.estimate_population_outcome(X, T, Y)\n", + "ate_ov = dr_overlap.estimate_effect(pop_outcomes_ov[1], pop_outcomes_ov[0],\n", + " agg=\"population\")[\"diff\"]\n", + "print(\" ATE(DR, overlap-weighting):\", ate_ov)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Summary" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " estimator μ1 μ0 ATE\n", + "0 IPW (manual) 0.259810 -0.129031 0.388841\n", + "1 AIPW (vanilla) 0.303299 -0.147113 0.450412\n", + "2 AIPW (overlap) NaN NaN 0.346741\n" + ] + } + ], + "source": [ + "results = pd.DataFrame([\n", + " [\"IPW (manual)\", y1_ipw, y0_ipw, ate_ipw],\n", + " [\"AIPW (vanilla)\", mu1_aipw, mu0_aipw, ate_aipw],\n", + " [\"AIPW (overlap)\", np.nan, np.nan, ate_ov]\n", + "], columns=[\"estimator\", \"μ1\", \"μ0\", \"ATE\"])\n", + "print(results)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위에서 사용한 방법에 따라 ATE 값이 다르게 나타나는 것을 알 수 있습니다. \n", + " \n", + "하지만 Overlap-Weighting 옵션을 사용한 경우에는 ATE가 아닌 ATO를 추정한 것이고 둘을 직접 비교하는 것은 맞지 않을 수 있습니다. \n", + " \n", + "분석의 목적이 ATE를 추정하는 것인지 ATO를 추정하는 것인지 확인한 후 적절히 사용하면 됩니다. " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## **Robustness Check의 흐름**\n", + "\n", + "각각의 수치에 대한 검증은 필수입니다. \n", + "어떤 수치가 더 Robust하게 추정이 된 걸까요? \n", + "\n", + "Yang et al., 2019, Gastrointest Endosc 및 Austin, 2021, Statistic in Medicine 논문을 참고하여 IPW에 대한 Robustness Check을 진행해보도록 하겠습니다. \n", + "순서는 다음과 같습니다.\n", + "\n", + "1) **IPW 가중 전, 후 |SMD| 변화 확인**\n", + "\n", + "2) **Propensity Score의 Overlap 확인**\n", + "\n", + "3) **IPW 가중 이후 ESS 및 VIF 확인**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "먼저 IPW로 구한 ATE의 신빙성을 테스트 해보겠습니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "출처: https://causallib.readthedocs.io/en/latest/causallib.evaluation.plots.plots.html" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": {}, + "outputs": [], + "source": [ + "import matplotlib.pyplot as plt\n", + "from causallib.evaluation.plots.plots import plot_propensity_score_distribution\n", + "from causallib.evaluation import evaluate" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### IPW 가중 전, 후 |SMD| 변화 확인" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 17, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "res = evaluate(weight_model, X, T, Y, cv=\"auto\")\n", + "res.plot_covariate_balance(kind=\"love\", phase=\"valid\", thresh=0.1)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Weighted이후에 |SMD|가 더 줄어든 것을 보았을 때, Weighted 이후 밸런스가 개선되었음을 확인할 수 있습니다. \n", + "|SMD| < 0.1 이 목표" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Propensity Score Overlap\n", + "아래는 처음에 Logistic Regression으로 추정한 Propensity Score의 Distribution을 나타낸 것입니다." + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 18, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "plot_propensity_score_distribution(\n", + " propensity=data_ps['propensity_score'],\n", + " treatment=data_ps['intervention'],\n", + " reflect=False,\n", + " kde=False,\n", + " norm_hist=True,\n", + ")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "하지만 이는 하나의 데이터에 적합 및 예측을 동시에 하기 때문에 Overlap이 실제보다 좋아보일 수 있습니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "그렇다면 OOF 폴드 예측으로 얻은 PS 분포를 그려봅시다. \n", + "(cv = None -> 단일 적합, cv = \"auto\" -> 교차검증)" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 19, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "res.plot_weight_distribution(phase=\"valid\", reflect=False, norm_hist=True)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "OOF로 검증해도 Propensity Score의 Overlap 및 Positivity가 양호한 것을 확인" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### IPW 가중치 분포 및 유효표본수(ESS)" + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ESS = 10354.68 (N = 10391) -> VIF = 1.0035\n" + ] + } + ], + "source": [ + "w = weight_model.compute_weights(X, T)\n", + "ESS = (w.sum()**2) / (w**2).sum()\n", + "N = len(w)\n", + "VIF = N / ESS\n", + "\n", + "print(f\"ESS = {ESS:.2f} (N = {N}) -> VIF = {VIF:.4f}\")" + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "Text(0.5, 1.0, 'IPW weights (log y)')" + ] + }, + "execution_count": 21, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "plt.figure(); plt.hist(w, bins=40); plt.yscale('log'); plt.title('IPW weights (log y)')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "결과 해석\n", + "1) ESS와 N수가 거의 비슷한 것을 확인할 수 있음(VIF ≈ 1) -> 가중치가 고르게 퍼져있다\n", + "2) 히스토그램이 1 주변에 모여있고(= 가중치 과도하게 쏠리지 않음), 꼬리 부분도 완만(= 극단 가중치 거의 없음)\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "다만 VIF와 Propensity Score Overlap이 정량적으로 얼마나 되어야 한다 라는 지표는 찾을 수 없었습니다. \n", + "\n", + "\n", + "데이터 및 분석의 맥락에 따라 다르게 지정하되, propensity score의 overlap이 약하다면 위에서 진행한 clipping 등의 방법을 적용해보면 좋습니다. " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "[참고자료]\n", + "- Yang, Jeff Y., et al. \"Propensity score methods to control for confounding in observational cohort studies: a statistical primer and application to endoscopy research.\" Gastrointestinal endoscopy 90.3 (2019): 360-369.\n", + "\n", + "- Austin, Peter C. \"Informing power and sample size calculations when using inverse probability of treatment weighting using the propensity score.\" Statistics in Medicine 40.27 (2021): 6150-6163.\n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## **Double/Debiased Machine Learning (비모수 버전의 Regression 처럼 활용 가능)**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "코드 및 데이터 참조 출처: https://matheusfacure.github.io/python-causality-handbook/22-Debiased-Orthogonal-Machine-Learning.html" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "DML은 ATE와 CATE와 같은 인과적 모수를 구하는 하나의 프레임입니다. \n", + "\n", + "간략하게 소개하자면, DML은 복잡한 보조모형은 머신러닝으로 학습하고, 직교화(Neyman 점수)와 교차적합으로 bias를 상쇄해 ATE·CATE 같은 인과모수를 정규성으로 안정적으로 추정하는 프레임워크입니다. \n", + "이를 통해 인과 매개변수의 추정 절차와 성가신 매개변수의 추정 절차를 분리할 수 있는 Frisch-Waugh-Lovell의 장점을 그대로 지닌 방법입니다.\n", + "\n", + "코드와 함께 더 자세하게 알아보기 위해 계량경제학에서 자주 사용하는 데이터셋 중 하나인 **아이스크림 판매 데이터셋**을 활용해보겠습니다. \n" + ] + }, + { + "cell_type": "code", + "execution_count": 22, + "metadata": {}, + "outputs": [], + "source": [ + "from lightgbm import LGBMRegressor\n", + "from sklearn.model_selection import cross_val_predict\n", + "import seaborn as sns" + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
tempweekdaycostpricesales
017.361.55.6173
125.430.34.9196
223.351.57.6207
326.910.35.3241
420.211.07.2227
\n", + "
" + ], + "text/plain": [ + " temp weekday cost price sales\n", + "0 17.3 6 1.5 5.6 173\n", + "1 25.4 3 0.3 4.9 196\n", + "2 23.3 5 1.5 7.6 207\n", + "3 26.9 1 0.3 5.3 241\n", + "4 20.2 1 1.0 7.2 227" + ] + }, + "execution_count": 23, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "test = pd.read_csv(\"../data/matheus_data/ice_cream_sales_rnd.csv\")\n", + "train = pd.read_csv(\"../data/matheus_data/ice_cream_sales.csv\")\n", + "train.head()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Frisch-Waugh-Lovell 응용 DML**" + ] + }, + { + "cell_type": "code", + "execution_count": 24, + "metadata": {}, + "outputs": [], + "source": [ + "y = \"sales\"\n", + "T = \"price\"\n", + "X = [\"temp\", \"weekday\", \"cost\"]\n", + "\n", + "debias_m = LGBMRegressor(max_depth=3, verbosity=-1)\n", + "denoise_m = LGBMRegressor(max_depth=3, verbosity=-1)\n", + "\n", + "train_pred = train.assign(price_res = train[T] - cross_val_predict(debias_m, train[X], train[T], cv=5),\n", + " sales_res = train[y] - cross_val_predict(denoise_m, train[X], train[y], cv=5))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위의 코드는 FWL(Frisch-Waugh-Lovell) 정리($Y_i - \\mathbb{E}[Y_i\\mid X_i] = \\tau\\,(T_i - \\mathbb{E}[T_i\\mid X_i]) + \\varepsilon$)에서 $ \\mathbb{E}[Y_i\\mid X_i] $ 와 $\\mathbb{E}[T_i\\mid X_i] $를 머신러닝을 사용하여 추정합니다. \n", + "\n", + "이를 통해 Y와 T의 잔차를 추정할 때 교호작용(변수 간의 Interaction)과 비선형성을 모델링할 수 있고, 동시에 FWL 스타일의 직교화를 유지할 수 있게끔 합니다. \n", + "\n", + "그렇다면 변수명을 debias_m, 그리고 denoise_m이라고 지정한 이유는 무엇일까요? \n", + "\n", + "- **debias_m** \n", + " : FWL 정리의 식에서 $T - M_t( = \\tilde{T})$부분으로, X의 모든 교란 편향이 모델에 의해 제거된 부분입니다.($M_t := \\mathbb{E}[T_i\\mid X_i]$를 머신러닝으로 추정한 모델) \n", + " 즉, $\\tilde{T}$는 X에 직교하는, X로 인한 bias를 없앤 값입니다. \n", + "\n", + "- **denoise_m** \n", + " :FWL 식에서 $Y - M_y(= \\tilde{Y})$부분으로, Y에서 분산을 제거하는 부분입니다.($M_y := \\mathbb{E}[Y_i\\mid X_i]$를 머신러닝으로 추정한 모델) \n", + " 즉, $\\tilde{Y}$는 X로 인한 모든 분산이 제거된 값입니다.\n", + "\n", + "또한 debias_m과 denoise_m값을 추정할 때 K-Fold 방식을 사용하여 머신러닝의 고질적인 과적합 문제를 방지합니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위에서 구한 모델을 활용하여 최종 ATE를 구해봅시다." + ] + }, + { + "cell_type": "code", + "execution_count": 25, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "\n", + "\n", + " \n", + "\n", + "\n", + " \n", + "\n", + "\n", + " \n", + "\n", + "
coef std err t P>|t| [0.025 0.975]
Intercept 0.0106 0.072 0.148 0.883 -0.131 0.152
price_res -3.9228 0.071 -54.962 0.000 -4.063 -3.783
" + ], + "text/latex": [ + "\\begin{center}\n", + "\\begin{tabular}{lcccccc}\n", + "\\toprule\n", + " & \\textbf{coef} & \\textbf{std err} & \\textbf{t} & \\textbf{P$> |$t$|$} & \\textbf{[0.025} & \\textbf{0.975]} \\\\\n", + "\\midrule\n", + "\\textbf{Intercept} & 0.0106 & 0.072 & 0.148 & 0.883 & -0.131 & 0.152 \\\\\n", + "\\textbf{price\\_res} & -3.9228 & 0.071 & -54.962 & 0.000 & -4.063 & -3.783 \\\\\n", + "\\bottomrule\n", + "\\end{tabular}\n", + "\\end{center}" + ], + "text/plain": [ + "" + ] + }, + "execution_count": 25, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "import statsmodels.formula.api as smf\n", + "\n", + "final_model = smf.ols(formula='sales_res ~ price_res', data=train_pred).fit()\n", + "final_model.summary().tables[1]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "지금 구한 코드는 DML의 debias_m, denoise_m을 반영해서 sales와 price간의 음의 인과관계(가격이 오르면 sales가 떨어진다)를 잘 구한 모습입니다. \n", + "\n", + "하지만 debias_m, denoise_m을 반영하지 않고, 즉 다른 교란변수(X)의 영향을 제어하지 않고 OLS를 돌리면 어떻게 될까요?" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "\n", + "\n", + " \n", + "\n", + "\n", + " \n", + "\n", + "\n", + " \n", + "\n", + "
coef std err t P>|t| [0.025 0.975]
Intercept 192.9679 1.013 190.414 0.000 190.981 194.954
price 1.2294 0.162 7.575 0.000 0.911 1.547
" + ], + "text/latex": [ + "\\begin{center}\n", + "\\begin{tabular}{lcccccc}\n", + "\\toprule\n", + " & \\textbf{coef} & \\textbf{std err} & \\textbf{t} & \\textbf{P$> |$t$|$} & \\textbf{[0.025} & \\textbf{0.975]} \\\\\n", + "\\midrule\n", + "\\textbf{Intercept} & 192.9679 & 1.013 & 190.414 & 0.000 & 190.981 & 194.954 \\\\\n", + "\\textbf{price} & 1.2294 & 0.162 & 7.575 & 0.000 & 0.911 & 1.547 \\\\\n", + "\\bottomrule\n", + "\\end{tabular}\n", + "\\end{center}" + ], + "text/plain": [ + "" + ] + }, + "execution_count": 26, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "final_model = smf.ols(formula='sales ~ price', data=train_pred).fit()\n", + "final_model.summary().tables[1]" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "이렇듯 **가격이 오르면 sales가 오른다는 이상한 인과관계**를 추정하게 됩니다. \n", + "\n", + "여기서 볼 수 있듯이 인과관계 추정을 위해서는 교란변수를 잘 컨트롤하는 것이 중요합니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "지금까지 DML을 활용해서 ATE를 구해보았습니다. \n", + " \n", + "그렇다면 DML을 활용해서 CATE를 구하는 방법은 무엇일까요?" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **DML 응용 CATE 계산**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "CATE를 구하기 위해서는 ATE와 동일한 식을 사용하지만, 거기에 T잔차와 다른 공변량과의 상호작용($\\pmb{\\beta}_2 \\pmb{X_i} \\tilde{T_i}$)텀을 추가하도록 할 것입니다. \n", + "\n", + "즉, $\\tilde{Y_i} = \\alpha + \\beta_1 \\tilde{T_i} + \\pmb{\\beta}_2 \\pmb{X_i} \\tilde{T_i} + \\epsilon_i$라는 식을 추정한다면 CATE 값을 얻을 수 있습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 27, + "metadata": {}, + "outputs": [], + "source": [ + "final_model_cate = smf.ols(formula='sales_res ~ price_res * (temp + C(weekday) + cost)', data=train_pred).fit()\n", + "\n", + "cate_test = test.assign(cate=final_model_cate.predict(test.assign(price_res=1))\n", + " - final_model_cate.predict(test.assign(price_res=0)))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "price_res * (temp + C(weekday) + cost)라는 T와 다른 공변량 간의 상호작용 텀을 넣어 CATE를 추정할 수 있도록 구성했습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 28, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "def elast(data, y, t):\n", + " return (np.sum((data[t] - data[t].mean())*(data[y] - data[y].mean())) /\n", + " np.sum((data[t] - data[t].mean())**2))\n", + "\n", + "def cumulative_gain(dataset, prediction, y, t, min_periods=30, steps=100):\n", + " size = dataset.shape[0]\n", + " ordered_df = dataset.sort_values(prediction, ascending=False).reset_index(drop=True)\n", + " n_rows = list(range(min_periods, size, size // steps)) + [size]\n", + " return np.array([elast(ordered_df.head(rows), y, t) * (rows/size) for rows in n_rows])\n", + "\n", + "gain_curve_test = cumulative_gain(cate_test, \"cate\", y=y, t=T)\n", + "plt.plot(gain_curve_test, color=\"C0\", label=\"Test\")\n", + "plt.plot([0, 100], [0, elast(test, y, T)], linestyle=\"--\", color=\"black\", label=\"Baseline\")\n", + "plt.legend();\n", + "plt.title(\"R-Learner\");" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위의 곡선에서 볼 수 있듯이 최종 선형 모델을 사용한 DML 절차는 훌륭한 성능을 나타냅니다.\n", + "\n", + "참고로, DML을 활용하여 CATE를 구하는 방법이 R-Learner라고 불리는 메타 학습자의 하나의 종류입니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **Non Parametric Double/Debiased ML**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "하지만 위에서 우리는 중간에 머신러닝을 사용하긴 했지만, 최종 ATE/CATE를 구할 때는 OLS, 즉 선형 모델을 사용한 것을 볼 수 있습니다. \n", + "결국 우리는 아직 Y와 T간의 비선형성을 잡을 수 없는 한계가 있었습니다. \n", + "\n", + "우리는 위에서 추정한 식의 변형을 통해 비선형성까지 머신러닝이 학습할 수 있게 코드를 짤 수 있습니다. \n", + "식의 변형에 대해서는 다음의 링크를 참고해주세요. https://matheusfacure.github.io/python-causality-handbook/22-Debiased-Orthogonal-Machine-Learning.html " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "우리는 코드를 통해 Y와 T간의 비선형성을 잡을 수 있는 방법에 대해 알아보겠습니다. \n", + "식의 변형은 다소 복잡할 수 있지만, 코드로 구현하면 간단합니다. " + ] + }, + { + "cell_type": "code", + "execution_count": 29, + "metadata": {}, + "outputs": [], + "source": [ + "model_final= LGBMRegressor(max_depth=3)\n", + "\n", + "# create the weights\n", + "w= train_pred[\"price_res\"]** 2\n", + "\n", + "# create the transformed target\n", + "y_star= (train_pred[\"sales_res\"]/ train_pred[\"price_res\"])\n", + "\n", + "# use a weighted regression ML model to predict the target with the weights.\n", + "model_final.fit(X=train[X], y=y_star, sample_weight=w);" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "위의 기계학습 모델은 기존의 식을 변형해 가중치 w($\\tilde{T}_i^2$)와 y_star($\\frac{\\tilde{Y}_i}{\\tilde{T}_i}$) 텀을 추가해서 \n", + "X값을 Y값에 학습시키기만 해도 Y와 T의 비선형성을 포함하는 최종 CATE 값을 구할 수 있다는 장점이 있습니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "이제 테스트 데이터셋을 사용하여 이 비모수적 버전을 이전에 사용한 선형 버전과 비교해 보겠습니다. \n", + "\n", + "먼저 개별 처치 효과를 추정합니다." + ] + }, + { + "cell_type": "code", + "execution_count": 30, + "metadata": {}, + "outputs": [], + "source": [ + "cate_test_non_param = test.assign(cate=model_final.predict(test[X]))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "다음으로, 비모수 누적 탄성 곡선을 모수(선형) 버전의 이중/직교 기계학습에서 얻은 곡선과 나란히 플롯을 그릴 수 있습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 31, + "metadata": {}, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "gain_curve_test_non_param = cumulative_gain(cate_test_non_param, \"cate\", y=y, t=T)\n", + "plt.plot(gain_curve_test_non_param, color=\"C0\", label=\"Non-Parametric\")\n", + "plt.plot(gain_curve_test, color=\"C1\", label=\"Parametric\")\n", + "plt.plot([0, 100], [0, elast(test, y, T)], linestyle=\"--\", color=\"black\", label=\"Baseline\")\n", + "plt.legend();\n", + "plt.title(\"R-Learner\");" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### Caution!" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "하지만 Non-Parametric으로 결과를 구할 경우 해석에 주의할 점이 있습니다.\n", + "\n", + "Non-Parametric은 최종 CATE에서도 비선형 관계를 잡아낼 수 있다는 장점이 있지만, **국소 선형 근사치**만을 찾는 것이기 때문에 \n", + "\n", + "해당 처치 수준 또는 처치 주변에서만 그 결과를 해석해야하고, 그 범위를 벗어났을 때에는 우리가 구한 결과값이 다르게 해석되어야 합니다. \n", + "\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "즉, T가 0일 때의 $\\tau(X_i)$값과 T가 60일 때의 $\\tau(X_i)$값은 다르게 추정되므로, T가 0일 때의 $\\tau(X_i)$값으로 T가 60일 때에도 그대로 적용해서 해석을 하면 안됩니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "그럼 아래에서는 더욱 다양한 DML 응용 방법 및 모델을 알아보도록 하겠습니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "### **DML 모델(1) Partially linear models (PLM)**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "PLM의 기본 아이디어는 처치 효과는 선형(상수 계수 θ) 로 두고, 공변량 효과는 비모수/머신러닝 $g_0(X)$로 흡수해버리는 것입니다. \n", + "위에서 FWL개념에서 언급한 것과 동일하게 고차원의 X를 ML로 유연하게 처리하면서도 $θ_0$에 대해 표준 오류 및 신뢰구간을 잘 뽑아낼 수 있습니다.\n", + "\n", + "이 방법은 처치가 연속적이거나(Ex. 가격, 광고비, 용량 등) 처치가 이진이더라도 ATE만 알고 싶을 때 사용하기 좋습니다.\n", + "\n", + "PLM은 크게 두 종류로 나눌 수 있습니다. \n", + "Instrumental Variable 설정 여부에 따라 Partially Linear Regressor(PLR)과 Partially Linear IV Regressor(PLIV)로 나눠서 각각의 코드를 살펴보도록 하겠습니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### **(1) Partially Linear Regressor(PLR)**" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "PLR은 위에서 FWL개념을 DML에 적용시키면서 했던 방법이랑 거의 동일한 Flow로 흘러갑니다. \n", + "수식으로 정리하자면 아래와 같습니다.\n", + "\n", + "$Y=Dθ_0​+g_0​(X)+ζ$, $E[ζ|X, D] = 0$ \n", + "$D = m_0(X) + V$, $E[V|X] = 0$\n", + "\n", + "- $θ_0$: ATE\n", + "- $g_0(X)$ = E[Y|X]: Y의 X로 인한 부분(denoise_m에 해당)\n", + "- $m_0(X)$ = E[D|X]를 학습: D의 X로 인한 부분(debias_m에 해당)\n", + "- ζ: Error term\n", + "\n", + "다만 위에서는 모든 과정을 수작업으로 했지만, 이번에는 doubleML에서 제공하는 모듈을 써서 같은 과정을 조금 더 엄격하게 진행해보도록 하겠습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 32, + "metadata": {}, + "outputs": [], + "source": [ + "import doubleml as dml\n", + "from doubleml.datasets import fetch_401K\n", + "from sklearn.pipeline import make_pipeline\n", + "from sklearn.preprocessing import StandardScaler\n", + "from sklearn.linear_model import LassoCV, LogisticRegressionCV" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "DoubleML 사이트(https://docs.doubleml.org/stable/guide/models.html#partially-linear-models-plm) 에 나와있는 데이터를 사용해 코드를 짜보도록 하겠습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 33, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
nifanet_tfatwageincfsizeeducdbmarrtwoearne401p401pirahown
00.00.04500.0476765.0280000001
16215.01015.022390.03628452.01160000001
20.0-2000.0-2000.0373300.06121000000
315000.015000.0155000.05852590.02160110001
40.00.058000.03221804.01110000001
\n", + "
" + ], + "text/plain": [ + " nifa net_tfa tw age inc fsize educ db marr twoearn \\\n", + "0 0.0 0.0 4500.0 47 6765.0 2 8 0 0 0 \n", + "1 6215.0 1015.0 22390.0 36 28452.0 1 16 0 0 0 \n", + "2 0.0 -2000.0 -2000.0 37 3300.0 6 12 1 0 0 \n", + "3 15000.0 15000.0 155000.0 58 52590.0 2 16 0 1 1 \n", + "4 0.0 0.0 58000.0 32 21804.0 1 11 0 0 0 \n", + "\n", + " e401 p401 pira hown \n", + "0 0 0 0 1 \n", + "1 0 0 0 1 \n", + "2 0 0 0 0 \n", + "3 0 0 0 1 \n", + "4 0 0 0 1 " + ] + }, + "execution_count": 33, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "data = fetch_401K(return_type='DataFrame')\n", + "features = ['age','inc','educ','fsize','marr','twoearn','db','pira','hown']\n", + "data.head()" + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [], + "source": [ + "dml_data = dml.DoubleMLData(data, y_col='net_tfa', d_cols='e401', x_cols=features)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "- Y: net_tfa(순자산) \n", + "- d_cols: e401(적격성) \n", + "- Features: [age: '나이',inc: '소득',educ: '교육',fsize: '가구원 수',marr: '결혼여부',twoearn: '맞벌이 가구 여부',db: '확정급여형(Defined Benefit) 연금 보유 여부',pira: 'IRA(개인퇴직계좌) 보유 여부)',hown: '주택 보유 여부']" + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": {}, + "outputs": [], + "source": [ + "ml_g = make_pipeline(StandardScaler(), LassoCV(cv=5, max_iter=10000))\n", + "ml_m = make_pipeline(StandardScaler(),\n", + " LogisticRegressionCV(cv=5, penalty='l1', solver='liblinear', max_iter=1000, random_state=42))" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "- **ml_g**: $g_0(X)$의 추정치 $\\hat{g_0}(X)$ \n", + " -> StandardScaler: Lasso의 L1규제가 변수 스케일에 민감하므로 표준화를 통해 공정하게 패널티 부여 \n", + " -> LassoCV: 많은/상관된 X에서도 변수선택 + 규제로 과적합을 줄이며 5-fold CV로 𝜆를 자동 선택\n", + " \n", + "- **ml_m**: $m_0(X)$의 추정치 $\\hat{m}(X)$\n", + " -> 여기서 D는 이진이므로 $m_0(X)$ = E[D|X] = P(D = 1|X) \n", + " -> L1 Logistic CV: P(D = 1|X)를 추정하기 위해 Logistic 사용 " + ] + }, + { + "cell_type": "code", + "execution_count": 36, + "metadata": {}, + "outputs": [], + "source": [ + "kf = KFold(n_splits=5, shuffle=True, random_state=123)\n", + "folds = list(kf.split(data[features], data['net_tfa']))" + ] + }, + { + "cell_type": "code", + "execution_count": 37, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
coefstd errtP>|t|2.5 %97.5 %
e4016229.1351881461.6940094.2615860.000023364.2675749094.002802
\n", + "
" + ], + "text/plain": [ + " coef std err t P>|t| 2.5 % 97.5 %\n", + "e401 6229.135188 1461.694009 4.261586 0.00002 3364.267574 9094.002802" + ] + }, + "execution_count": 37, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "dml_plr = dml.DoubleMLPLR(dml_data, ml_l=ml_g, ml_m=ml_m, n_folds=5)\n", + "dml_plr.fit()\n", + "dml_plr.summary" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "머신러닝의 고질적인 과적합 문제를 해결하기 위해 n_folds = 3으로 OOF를 진행해서 최종 ATE를 구합니다. \n", + "여기서도 마찬가지로 $g_0(X)$과 $m_0(X)$는 머신러닝으로 추정하지만, 최종 ATE 추정 단계에서는 선형회귀분석을 사용합니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "참고로 위의 FWL 응용 DML방식에서 사용한 수작업 코드 시의 결과와 비교해도 ATE값이 크게 다르지 않게 나오는 것을 확인할 수 있습니다.(95% CI에 겹침)" + ] + }, + { + "cell_type": "code", + "execution_count": 39, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "=== Residual OLS (ATE) ===\n", + "==============================================================================\n", + " coef std err t P>|t| [0.025 0.975]\n", + "------------------------------------------------------------------------------\n", + "Intercept 106.2167 563.412 0.189 0.850 -998.186 1210.620\n", + "e401_res 5863.0088 1252.451 4.681 0.000 3407.949 8318.068\n", + "==============================================================================\n", + "Diff (Resid OLS - DoubleML): -366.1264082597454\n" + ] + } + ], + "source": [ + "from sklearn.base import clone\n", + "import statsmodels.formula.api as smf\n", + "\n", + "y, d = 'net_tfa', 'e401'\n", + "\n", + "def oof_predict(pipe, Xdf, ysr, folds, proba=False):\n", + " \"\"\"Same-fold OOF 예측 (각 폴드에서 clone 해서 학습/예측).\"\"\"\n", + " oof = np.empty(len(ysr))\n", + " for tr, te in folds:\n", + " p = clone(pipe)\n", + " p.fit(Xdf.iloc[tr], ysr.iloc[tr])\n", + " oof[te] = (p.predict_proba(Xdf.iloc[te])[:, 1] if proba else p.predict(Xdf.iloc[te]))\n", + " return oof\n", + "\n", + "# OOF 예측: g_hat(X)=E[Y|X], m_hat(X)=P(D=1|X)\n", + "g_hat_oof = oof_predict(ml_g, data[features], data[y], folds, proba=False) # LassoCV 파이프라인\n", + "m_hat_oof = oof_predict(ml_m, data[features], data[d], folds, proba=True) # LogisticCV 파이프라인\n", + "\n", + "\n", + "# 잔차 컬럼 만들고 OLS\n", + "train_pred = data.assign(\n", + " **{f\"{d}_res\": data[d] - m_hat_oof,\n", + " f\"{y}_res\": data[y] - g_hat_oof}\n", + ")\n", + "\n", + "final_model = smf.ols(formula=f'{y}_res ~ {d}_res', data=train_pred).fit()\n", + "print(\"=== Residual OLS (ATE) ===\")\n", + "print(final_model.summary().tables[1])\n", + "\n", + "# DoubleML과 차이 확인\n", + "print(\"Diff (Resid OLS - DoubleML):\", final_model.params[f'{d}_res'] - dml_plr.coef[0])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "즉, 좀 더 간단하게 DoubleML이 제공하는 코드를 사용해도 상관없으므로 편하신 방법을 선택하시면 됩니다." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "#### **(2) Partially Linear IV Regressor(PLIV)**" ] }, { @@ -33,7 +2674,7 @@ ], "metadata": { "kernelspec": { - "display_name": "base", + "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, @@ -47,9 +2688,9 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.12.7" + "version": "3.9.6" } }, "nbformat": 4, - "nbformat_minor": 2 + "nbformat_minor": 4 }