快速业务通道

用PHP使Web数据分析进入更高境界

作者 佚名技术 来源 NET编程 浏览 发布时间 2012-05-22
率 临界值
X 平方分布 3 1.14 0.77 7.81

表 6 表明,在虚假设条件下,获得 X 平方分布值 1.14 的概率是 77%。我们不能排除这样的虚假设,即自从上一次民意测验以来,新斯科舍省啤酒消费者偏好已经发生了变化。观察频率和期望频率之间的任何差异都可以解释为新斯科舍省相同啤酒消费者的期望抽样可变性。考虑到最初民意测验结果的转换只是通过向前面每个民意测验结果添加常数 100 完成的,那么这种零发现也不应当有什么令人吃惊的地方了。

但是,您可以设想结果已经发生了变化,并且设想这些结果可能暗示着另一种品牌的啤酒正在变得更加流行(请注意表 5 中每列底部报告的方差大小)。您可以进一步设想这一发现对所讨论的酿酒厂的财务方面有显著的含义,因为酒吧老板往往会采购酒吧里最畅销的啤酒。

这些结果将受到酿酒厂老板极其详细的检查,他们会对分析过程和实验方法的适合性提出疑问;特别地,他们会对样本的代表性提出疑问。如果您打算进行一次 Web 实验,该实验可能具有重要的实际含义,那么,对于用来收集数据的实验方法和用来从数据得出推论的分析技术,您需要给予同等的关注。

因此,本文不仅为您奠定了一个良好的基础,以便于可以加强您对 Web 数据的有效理解,它还提供了一些建议,这些建议是有关如何保护您的统计检验选择的,并且使得从数据获得的结论更具合理性。

应用学到的知识

在本文中,您已经了解了如何将推论统计学应用于普遍存在的用于汇总 Web 数据流的频率数据,侧重于 Web 民意测验数据的分析。但是,所讨论的简单的单向 X 平方分布分析过程也能够有效地应用于其它类型的数据流(访问日志、调查结果、客户概要信息和客户订单),以便将原始数据转换成有用的知识。

在将推论统计学应用于 Web 数据时,我还介绍了希望将数据流视作 Web 实验的结果,以便于在作推论时提高引用实验设计考虑事项的可能性。通常由于您对于数据采集的过程缺乏足够的控制,因此您不能做出推论。但是,如果在将实验的设计原则应用于 Web 数据收集过程时您更加主动(例如,在您的 Web 民意测验过程中随机选择投票者),那么可以改变这种情形。

最后,我演示了如何模拟不同自由度的 X 平方分布的抽样分布,而不只是仅说明其来源。在这样做的过程中,对于测量类别的期望频率小于 5(换而言之,即小 N 实验)— 我还演示了一种变通方法(使用小 $NTrials 值模拟实验的抽样分布)来禁止使用 X 平方分布检验。因此,我不只是使用研究过程中的 df 来计算样本结果的概率,对于数量较小的尝试,可能还需要使用 $NTrials 值作为参数来求得所观察 X 平方分布结果的概率。

考虑您可能会如何分析小 N 实验是值得的,因为您通常可能希望在数据采集完成之前分析您的数据 — 当每次观察的代价都很昂贵时,当观察需要花费很长时间才能获得时,或者只是因为您很好奇。在尝试这一级别的 Web 数据分析时,最好谨记下面这两个问题:

*您是否有理由在小 N 条件下进行推论?
*模拟有助于您决定在这些环境下获得什么推论吗?

相关附件:本文中源码下载地址:http://www.phpe.net/uploads/attach/article_phpmath_003_1805.tar

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!

分享到: 更多

Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved

地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008

电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134

《中华人民共和国增值电信业务经营许可证》闽B2-20100024  ICP备案:闽ICP备05037997号