我正在尝试学习如何在 python 3.7 中执行一些我通常在 Stata 中轻松执行的操作。
我正在处理这样的数据框:
estimation_window group_id y x
0 1 3.17 23
1 1 4.76 26
1 2 4.17 73
1 2 8.70 72
0 2 11.45 16
我想要一个 for 循环来估计 group_id 中每个不同组的线性回归(y on x),只使用虚拟 estimation_window 等于 1 的观察值。
然后,我想将三列添加回我的初始数据框:一列包含预测值,一列包含每个回归的 beta(x 系数),一列包含每个回归的截距。应该为所有观察值计算这些值,而不仅仅是虚拟 estimation_window 等于 1 的那些值。
生成的数据集应如下所示:
estimation_window group_id y x predicted_val beta_coeff alpha_coeff
0 1 3.17 23 3.10 0.32 1.43
1 1 4.76 26 4.00 0.32 1.43
1 2 4.17 73 4.10 0.75 0.95
1 2 8.70 72 8.50 0.75 0.95
0 2 11.45 16 10.30 0.75 0.95
我尝试使用 statsmodels 但无法弄清楚。
慕容森
相关分类