Shen, Chi
Mar 20 2020, New Haven, CT
忙于和coronavirus对抗,没有时间整理,记下些胡乱想法
1.机器学习方法在因果推断中的应用
2.1 研究问题
对于只有截面数据的情况,由于无法采用双重查分的设计,可以采用匹配的方法寻找反事实的对照组,但是常规的psm和cem存在匹配精度不高的缺点,因此采用机器学习的方法寻找对照组,适用于研究因素与结局因素不存在互为因果的情况,比如药物试验。
2.2 研究方法
-
基本思路:因果推断的基本思路是永远选择最贴近干预组的一组人群,但这群人没有接受干预,也就是反事实组
-
具体方法:采用监督学习的classification中的单一标签单一分类方法,即只需要干预组的特征值,从一组个体重,选择与干预组特征最为相近的个体,而不是常用的同时需要干预和对照的特征去训练分类器,继而去分类出干预组,因为就是因为缺乏对照组才需要去构建对照组
-
具体步骤:
-
先用干预组的特征矩阵去训练模型,即把现有的干预组按7:3分为训练和测试集获得分类器
-
测试集能够评价分类器准确识别阳性个体的能力,但无法评价发现阴性个体的能力,因此需要在测试集中加入noise,即加入非干预组的个体特征,再测试分类器是否能准确发现阴性个体
-
当分类器构建完成后,就去对照组人群进行分类,识别出的个体就是与干预组个体特征值相近,但有未接受干预的个体,即为研究所需
-
进行回归时,同时构建三个模型相互比较:未匹配、psm匹配、分类期匹配
2.3 补充
-
混入noise的方法:因为提前没有真实的对照组,也就是没有现成的noise,因此可以通过对干预组的特征值进行人为修改,构造noise,比如随机插值
-
如果以上混入noise的方法可行,那么实际也可以采用单一标签二分类的classification的方法,因为有了0和1的分类,即可训练分类期
2.4 拓展
还有一种常见政策评估的情况,就是全部都干预了,政策实施后没有对照了(或者说无法采集到政策后没有干预的数据),这种情况下也是无法采用双重查分设计的,那么就可以利用机器学习预测的优势了,当然classification本质也是一种预测,具体思路如下:
-
现有数据的情况为:政策实施前:都为未干预个体,政策实施后:都为干预个体,有两种情况:一是前后个体完全一样,二是未干预个体数比干预个体多,只是无法收集到未干预个体实施后的数据,但是可以通过id识别出实施前干预个体所对应的个体。
-
那么就可以利用政策实施前后都有的个体数据,训练预测模型,然后利用预测模型对政策实施前的个体进行预测,得到在政策实施后但未被干预的结果。
-
如果是第一种情况,就将就是将预测模型中
干预前后
这个变量本来是1的换成0得到预测值,这个预测值就是干预后被干预了的个体,在没有被干预情况下的结果 -
如果是第二种情况,就只能对剩余的个体进行时间序列模型预测
##