Skip to content

Conversation

Funbucket
Copy link
Contributor

@Funbucket Funbucket commented Oct 18, 2025

구현 내용

  • 목적: FDC로 X(공유 탑승 승인) → M(실제 합승) → Y(팁) 인과효과 추정
  • 데이터: NYC HVFHS 2023 (Uber/Lyft ride-sharing)
    • 데이터 용량이 커서(약 6GB) 현재 커밋에는 포함하지 않음 (추후 처리 예정)

방법

  • FDC 기반 인과효과 식별
  • DuckDB + statsmodels 기반 2단계 회귀 (γ: X→M, δ: M→Y∣X,F)
  • OD×2시간 슬롯 demeaning으로 시간·공간 내생성 통제
  • Naive OLS 대비 FDC 추정치 비교 → 선택편향 완화 확인

참고

  • The Paper of How: Estimating Treatment Effects Using the Front-Door Criterion

TODO

  • DoWhy기반 DAG 시각화 추가
  • 비모수적 추정 추가

@Funbucket Funbucket requested a review from jhkimon October 18, 2025 10:43
@Funbucket Funbucket linked an issue Oct 18, 2025 that may be closed by this pull request
@Funbucket Funbucket self-assigned this Oct 18, 2025
@jhkimon
Copy link
Contributor

jhkimon commented Oct 19, 2025

구현해주신 내용 보면서 많이 배웠습니다!
특히 해당 분야에서 실제 (특히 대용량) 데이터로 분석하는 경우가 많지 않은데, Uber 데이터를 가져와 실용적으로 구현해주신 점이 인상적이었습니다.

다만 전반적인 구조가 다소 복잡하기에 말씀하신 것처럼 중간중간에 DAG 시각화를 추가하고, 또 각 변수의 선정 이유, 맥락도 더 자세히 적어준다면 큰 도움이 될 것 같습니다! (예를 들어, M이 Mediator로 적용되는 이유, Mediator가 FrontDoor Criterion에 쓰이는 이유, 1단계와 2단계 추정치의 곱으로 추정하는 이유 등)

++) 문서의 목적을 생각하면 Illustrative 목적 보다는 실무 적용 사례에 가까운듯한데, SCM 안에 넣기보다는 별도의 실무 적용사례로 빼는 것도 괜찮을 것 같습니다! (해당 내용이 FrontDoor Criterion의 활용은 맞으나, 실무적인 반영요소 등으로 인해 해당 개념을 바로 이해하기는 힘들 것 같습니다.)

실제 데이터를 들고 오고, 또 결과도 해석할 가치가 크다는 점에서 많이 참고가 되었습니다.
감사합니다 :)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

Frontdoor Criterion 추가

2 participants