• Home
  • About
    • Chi's blog photo

      Chi's blog

      Share and save some study notes about health economics and policy.

    • Learn More
    • Github
    • StackOverflow
  • Posts
    • All Posts
    • All Tags
  • Projects

[#6] - 半年记

20 Mar 2020

Reading time ~1 minute

Shen, Chi

Mar 20 2020, New Haven, CT

忙于和coronavirus对抗,没有时间整理,记下些胡乱想法

1.机器学习方法在因果推断中的应用

2.1 研究问题

对于只有截面数据的情况,由于无法采用双重查分的设计,可以采用匹配的方法寻找反事实的对照组,但是常规的psm和cem存在匹配精度不高的缺点,因此采用机器学习的方法寻找对照组,适用于研究因素与结局因素不存在互为因果的情况,比如药物试验。

2.2 研究方法

  • 基本思路:因果推断的基本思路是永远选择最贴近干预组的一组人群,但这群人没有接受干预,也就是反事实组

  • 具体方法:采用监督学习的classification中的单一标签单一分类方法,即只需要干预组的特征值,从一组个体重,选择与干预组特征最为相近的个体,而不是常用的同时需要干预和对照的特征去训练分类器,继而去分类出干预组,因为就是因为缺乏对照组才需要去构建对照组

  • 具体步骤:

  1. 先用干预组的特征矩阵去训练模型,即把现有的干预组按7:3分为训练和测试集获得分类器

  2. 测试集能够评价分类器准确识别阳性个体的能力,但无法评价发现阴性个体的能力,因此需要在测试集中加入noise,即加入非干预组的个体特征,再测试分类器是否能准确发现阴性个体

  3. 当分类器构建完成后,就去对照组人群进行分类,识别出的个体就是与干预组个体特征值相近,但有未接受干预的个体,即为研究所需

  4. 进行回归时,同时构建三个模型相互比较:未匹配、psm匹配、分类期匹配

2.3 补充

  • 混入noise的方法:因为提前没有真实的对照组,也就是没有现成的noise,因此可以通过对干预组的特征值进行人为修改,构造noise,比如随机插值

  • 如果以上混入noise的方法可行,那么实际也可以采用单一标签二分类的classification的方法,因为有了0和1的分类,即可训练分类期

2.4 拓展

还有一种常见政策评估的情况,就是全部都干预了,政策实施后没有对照了(或者说无法采集到政策后没有干预的数据),这种情况下也是无法采用双重查分设计的,那么就可以利用机器学习预测的优势了,当然classification本质也是一种预测,具体思路如下:

  • 现有数据的情况为:政策实施前:都为未干预个体,政策实施后:都为干预个体,有两种情况:一是前后个体完全一样,二是未干预个体数比干预个体多,只是无法收集到未干预个体实施后的数据,但是可以通过id识别出实施前干预个体所对应的个体。

  • 那么就可以利用政策实施前后都有的个体数据,训练预测模型,然后利用预测模型对政策实施前的个体进行预测,得到在政策实施后但未被干预的结果。

  1. 如果是第一种情况,就将就是将预测模型中干预前后这个变量本来是1的换成0得到预测值,这个预测值就是干预后被干预了的个体,在没有被干预情况下的结果

  2. 如果是第二种情况,就只能对剩余的个体进行时间序列模型预测

##



New HavenMachine learning Share Tweet +1