kaggle高频波动率预测
# eda(数据描述)&baseline
target 服从泊松分布(或卡方)
MSE 的分布前提假设数据满足高斯分布
分类问题的评估函数多用 f1 score
F1 分数是精确率(P,预测结果对了多少)和召回率(R,对实际结果我覆盖了多少)的调和平均数
encoding 技巧:对面板数据,按类别 groupby,然后聚合操作
按时间聚合时,可以考虑 tsfresh 包
聚合时,考虑到越新的数据,对未来影响越大,可以考虑从后往前选特定长度
伪标签思想:用初始学到的模型给无标签数据集打标签,取确信度大的结果加入 train set,用于后续训练(要防止确认偏见 )
more...





