你好,欢迎来到我的《数学通识50讲》系列。
在上一讲中,我们讨论了一种估算概率的方法,即借助大数定理,通过统计得出概率。例如,要了解某个汉字的使用频率,可以通过统计其在大量文本中的出现次数,然后将其除以所有汉字的总出现次数。
然而,统计量需要足够多,才能保证概率估计的准确性。那么,究竟多少才算足够呢?
我们已经学习了方差的概念,了解到统计量需要达到一定规模,使方差足够小,这样才能确保统计结论的可靠性。许多企业在利用大数据做决策时失败,主要是因为忽视了数学基础的重要性,导致结论缺乏说服力。
接下来,我们将重点探讨大数据方法的基础——统计学。只有掌握了统计学的意义、方法及其应用中的注意事项,才能更好地利用数据做出决策。
统计学是一门独立的科学,专注于数据的收集、分析、解释和陈述。尽管统计学的数学基础是概率论,但它不仅仅局限于概率论的应用。统计学还包括许多非数学的工作,如如何有效地陈述数据,使其更具说服力。为此,人们发明了各种统计图表,因为人们更容易对图表产生直观的理解,而不是枯燥的数字。
在统计学中,还有一个分支称为描述统计学,专门研究如何使统计结果更具说服力。此外,统计学还涉及数据的保存和整理,这些工作虽然与数学关系不大,但同样重要。
统计学最初并不是一门高深的学问,但随着时间的推移,它逐渐发展成为一门重要的学科。统计学的英文单词“statistics”源自拉丁语,意为“国会”或“国民政治家”,最早指的是对国家数据进行分析的学问。18世纪的德国学者戈特弗里德·阿亨瓦尔(Gottfried Achenwall)创造了这个术语,特指“研究国家的科学”。随着时代的变迁,统计学的意义也不断拓展,不再局限于研究国家层面的数据。
统计学的核心在于从大量数据中寻找规律、不同因素间的相关性以及可能的因果关系。然而,因果关系往往难以确定。找到规律后,我们可以利用这些规律建立数学模型,预测未来数据的变化趋势。
近年来,大数据成为了热门话题,但并非所有使用大数据的企业都能从中受益。主要原因在于方法不当。
首先,大数据的主要用途是寻找变量之间的关联性,以实现精准预测。但在实践中,找到相关变量并不容易。例如,在语音识别中,通过上下文预测下一个词的方法,在过去20多年里并未被广泛采用,直到最近才逐渐受到重视。这体现了人类智慧的重要性。
其次,当我们研究人类行为时,影响行为的客观变量很难找到,即使找到,行为也可能反过来改变条件。霍桑实验就是一个典型例子,它揭示了“霍桑效应”——当被观察者知道自己被观察时,行为会发生改变。
第三,低估数据稀疏性也是一个常见问题。即使数据量看起来庞大,但如果将其按多个维度划分,实际上仍然是稀疏的。例如,使用上下文预测单词时,即使词汇量不算复杂,但需要估算的条件概率值却高达1000万亿个,这远远超过了现有数据量所能提供的信息。
要充分利用统计学,我们需要遵循以下几个步骤:
设立研究目标:明确要证明的假设或要得到的相关性。这有助于避免盲目运用数据,并能有效地过滤数据中的噪声。
设计实验并选择数据:确保数据可以方便量化处理。例如,如果要识别图像,就需要将图像信息数字化。
根据实验方案进行统计和实验,分析方差:不仅要关注结果的平均值,还要考虑方差。例如,评估投资回报率时,不仅要考虑收益率,还要衡量风险。
通过分析提出新假设:统计结果有时会证明原有假设无效,这时需要提出新的假设进行验证。
应用研究结果:将统计结果应用于产品开发或向他人报告。报告的方式也很重要,需要注重表达的清晰度和逻辑性。
我们介绍了统计学的基本概念及其在实际应用中的误区,特别是大数据方法的误区。最后,我们总结了如何正确运用统计学的方法。希望这些知识对你有所帮助。
欢迎大家在留言区提问,我会在模块结束时回答你们的问题。下一次课程再见。——吴军《数学通识五十讲》