bootstrap是一类非参数monte carlo方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。
因为该方法充分利用了给定的观测信息,不需要模型其他的假设和增加新的观测,并且具有稳健性和效率高的特点。1980年代以来,随着计算机技术被引入到统计实践中来,此方法越来越受欢迎,在机器学习领域应用也很广泛。
首先,bootstrap通过重抽样,可以避免了cross-validation造成的样本减少问题,其次,bootstrap也可以用于创造数据的随机性。比如,我们所熟知的随机森林算法第一步就是从原始训练数据集中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类回归树。
以上就是bootstrap方法是什么的详细内容。
