采样注意事项

采样注意事项
采样注意事项
Anonim

采样大小

通过增加置信区间的可信度和可靠性来研究研究,从而可以估计人口参数的精度。其他选择会影响置信区间的宽度或多么窄:统计量的选择,t比z更宽/更保守,以及置信度,较低的程度如90%,导致更宽/更保守的间隔99%。由于标准误差的公式(即“样本标准偏差/样本量 1/2” )的比率,样本量的增加往往会产生更有意义的效果,标准误差与样本量成反比。因此,样本中更多的观察(所有其他因素相同)可以提高研究的质量。同时,另外两个因素倾向于使较大的样本量不太理想。主要影响时间序列数据的首要考虑因素是人口参数随时间变化的趋势。例如,如果我们正在研究共同基金,并在我们的分析中使用五年的季度回报(即样本量为20年,5年x 4个季度一年)。由此产生的置信区间似乎过于宽泛,为了提高精度,我们使用了20年的数据(80个观测值)。但是,当我们回到20世纪80年代研究这个基金的时候,它有一个不同的基金经理,再加上购买更多小盘价值的公司,而今天则是增长和价值的混合体,中大市值。此外,影响今天股市(和共同基金回报)的因素与八十年代相比有很大的不同。总之,人口参数随时间而变化,20年前的数据不应该与最近五年的数据混在一起。另一个考虑是增加样本量可能涉及额外的费用。以标准普尔500企业的招聘计划(横断面研究)为例。建议样本量为25人,涉及25家企业的人力资源部门。通过将样本数量增加到100个,或者200个或更多,我们在做出结论时确实有更高的精度,但费用是多少?在许多横断面研究中,特别是在现实世界中,每个样本需要花费时间和成本,因此将样本量保持在一个较低的水平就足够了,因为额外的精度不值得追加成本。

数据挖掘偏差

数据挖掘是通过搜索历史数据寻找重要模式的实践,研究人员可以建立一个模型并就未来的人口行为作出结论。例如,一月份股票市场回报趋于强劲的所谓1月效应是数据挖掘的产物:对50 - 70年前的指数的月度回报进行排序并相互比较,注意到1月份的格局。数据挖掘的另一个众所周知的结论是“道琼斯指数”战略:每年1月,在道琼斯工业指数中的30家公司中,购买股息收益率最高的10家公司。长远来看,这样的策略胜过了市场。书架上充满了数以百计的这种“保证”赢得投资策略的模式。当然,借用一个通用的行业术语,“过去的表现并不能保证未来的结果”。数据挖掘偏差是指过度依赖数据挖掘实践所导致的错误。换句话说,虽然在数据挖掘中发现的一些模式可能是有用的,但是其他许多模式可能恰巧是巧合的,并且不可能在将来重复 - 特别是在“高效”市场中。例如,由于这种现象被广泛认可,我们可能无法继续从1月效应中获利。因此,11月份和12月份的股票都是由市场参与者预测1月份的影响而上涨的,所以到1月初,这种影响将被定价到股票中,而且不能再利用这个模型。代际数据挖掘是指继续使用之前金融研究中提出的信息作为测试相同模式和夸大相同结论的指南。区分有效的模型和有效的结论,以及那些纯粹巧合并且是数据挖掘的产物的想法,由于数据挖掘通常不容易发现,所以这是一个巨大的挑战。研究它的存在的一个好的开始是进行一个

的样本外测试

,换句话说,研究这个模型是否在不与研究时间框架重叠的时期内工作。即使在进行模型外测试时,有效模型仍应具有统计显着性。对于数据挖掘产品的研究来说,模型时间框架之外的测试通常会揭示其真实性质。其他警告标志涉及研究中检查的模式或变量的数量 - 也就是说,这项研究是否仅仅搜索了足够多的变量,直到最终发现了什么(任何事物)为​​止?大多数学术研究不会透露研究中测试的变量或模式的数量,但通常会有口头提示可以揭示过度数据挖掘的存在。

最重要的是,当有一个经济的理由来解释为什么存在一个模式,而不是简单地指出一个模式在那里。例如,多年前的一项研究发现,近年来,NFC赢得超级碗的市场往往有正回报,但当AFC代表胜利的时候,它的表现相对较差。然而,没有经济的理由来解释为什么这种模式存在 - 人们花费更多,或者公司建立更多,或投资者投资更多,基于一个足球比赛的胜利者?不过每个超级碗周都有这个故事。作为数据挖掘的结果而发现的模式可能会使人感兴趣的阅读,但是在做出决定的过程中,必须注意确保挖掘模式不被盲目过度使用。

样本选择偏差 许多额外的偏差会对金融研究的质量和有用性产生不利影响。样本选择偏差是指仅仅因为数据不可用而排除某一部分人群的倾向。因此,我们不能说我们绘制的样本是完全随机的,只是在可以获得历史数据的子集内是随机的。 生存偏见

金融数据库中常见的样本选择偏差形式是生存偏差,或者是财务和会计数据库倾向于排除不再存在的公司,共同基金等的信息。因此,可以得出某些事实上可能被夸大的结论,即消除这种偏见,包括全体人口。例如,许多研究指出,低价值账面价值公司的走势要优于P / BV较高的公司。但是,这些研究很可能不会包括那些失败的公司;因此数据不可用,存在样本选择偏差。在P / BV低和高的情况下,有理由认为,处于下跌和失败之中的公司在P / BV的规模上可能会相对较低,根据研究,我们将被引导购买这些同样的公司由于历史模式。由于存在偏差,低价(价值)股票和高价(增长)股票之间的收益差距有可能被系统地高估。事实上,投资行业已经形成了一些增长和价值指数。但是,在确定哪种战略(增长或价值)更优越的问题上,实际的证据是混杂的。样本选择偏差延伸到较新的资产类别,例如对冲基金,一个多一点的从监管中脱离出来的多元化的组合,而公开披露业绩比独立管理账户的共同基金或注册顾问。人们怀疑对冲基金只会披露使基金看起来不错的数据(自我选择的偏见),而比较发达的共同基金行业则表现不佳者仍然受到某些披露要求的约束。

预见性偏见

如果研究是利用实际上在某个特定的日子没有得到的信息,那么研究就会犯前瞻性的偏见,然而研究人员却认为是这样。让我们回到购买低价格对账面价值公司的例子。该研究可能会假设我们在某一年的1月1日购买我们的低P / B值投资组合,然后(相比于高P / B值投资组合)全年持有。不幸的是,虽然公司当前的股票价格是即时可用的,但公司的账面价值通常在今年年初之后的几个月才能提供,当时公司提交了官方的10-K。为了克服这种偏差,可以用当前价格除以前一年的账面价值,或者(如罗素指数所做的),用数据报告后等到年中之前,再建立P / BV比率。

时间偏差

这种类型的偏差是指一个投资研究,可能似乎在一个特定的时间框架上工作,但可能不会在未来的时间段内持续。例如,在1999年或2000年进行的任何研究落后五年的研究都可能吹捧高风险增长策略的表现,同时指出较为保守的方法的平庸结果。如果今天进行这些相同的研究10年后,结论可能会大不相同。某些异常情况可能会持续几个季度甚至几年,但理想情况下,研究应在多个不同的商业周期和市场环境中进行测试,以确保结论不是特定于某个特定时期或环境。