Home
About
- Chi's blog
  
  Share and save some study notes about health economics and policy.
- Learn More
- Github
- StackOverflow
Posts
- All Posts
- All Tags
Projects

[#6] - 半年记

20 Mar 2020

Reading time ~1 minute

Shen, Chi

Mar 20 2020, New Haven, CT

忙于和coronavirus对抗，没有时间整理，记下些胡乱想法

1.机器学习方法在因果推断中的应用

2.1 研究问题

对于只有截面数据的情况，由于无法采用双重查分的设计，可以采用匹配的方法寻找反事实的对照组，但是常规的psm和cem存在匹配精度不高的缺点，因此采用机器学习的方法寻找对照组，适用于研究因素与结局因素不存在互为因果的情况，比如药物试验。

2.2 研究方法

基本思路：因果推断的基本思路是永远选择最贴近干预组的一组人群，但这群人没有接受干预，也就是反事实组
具体方法：采用监督学习的classification中的单一标签单一分类方法，即只需要干预组的特征值，从一组个体重，选择与干预组特征最为相近的个体，而不是常用的同时需要干预和对照的特征去训练分类器，继而去分类出干预组，因为就是因为缺乏对照组才需要去构建对照组
具体步骤：

先用干预组的特征矩阵去训练模型，即把现有的干预组按7:3分为训练和测试集获得分类器
测试集能够评价分类器准确识别阳性个体的能力，但无法评价发现阴性个体的能力，因此需要在测试集中加入noise，即加入非干预组的个体特征，再测试分类器是否能准确发现阴性个体
当分类器构建完成后，就去对照组人群进行分类，识别出的个体就是与干预组个体特征值相近，但有未接受干预的个体，即为研究所需
进行回归时，同时构建三个模型相互比较：未匹配、psm匹配、分类期匹配

2.3 补充

混入noise的方法：因为提前没有真实的对照组，也就是没有现成的noise，因此可以通过对干预组的特征值进行人为修改，构造noise，比如随机插值
如果以上混入noise的方法可行，那么实际也可以采用单一标签二分类的classification的方法，因为有了0和1的分类，即可训练分类期

2.4 拓展

还有一种常见政策评估的情况，就是全部都干预了，政策实施后没有对照了（或者说无法采集到政策后没有干预的数据），这种情况下也是无法采用双重查分设计的，那么就可以利用机器学习预测的优势了，当然classification本质也是一种预测，具体思路如下：

现有数据的情况为：政策实施前：都为未干预个体，政策实施后：都为干预个体，有两种情况：一是前后个体完全一样，二是未干预个体数比干预个体多，只是无法收集到未干预个体实施后的数据，但是可以通过id识别出实施前干预个体所对应的个体。
那么就可以利用政策实施前后都有的个体数据，训练预测模型，然后利用预测模型对政策实施前的个体进行预测，得到在政策实施后但未被干预的结果。

如果是第一种情况，就将就是将预测模型中干预前后这个变量本来是1的换成0得到预测值，这个预测值就是干预后被干预了的个体，在没有被干预情况下的结果
如果是第二种情况，就只能对剩余的个体进行时间序列模型预测

##

New Haven Machine learning Share Tweet +1