关于大数据与机器学习，小白和牛人之间15个典型问答精髓整理下篇

首先，建议学习一门易于入门的编程语言，如R或Python。掌握基础后，可以通过这些工具处理和分析数据，从而更容易进入大数据领域。

入门时，可以参考《大数据实战手册》，这本书详细介绍了大数据和Hadoop生态系统，非常适合初学者。大数据领域的应用多种多样，包括可视化、工程应用和数据分析等，关键在于找到适合自己的方向。

推荐系统常用的技术包括SVM算法和协同过滤。此外，推荐系统也可以视为贝叶斯信念网络的延伸或变种，因此可以参考一些关于推荐系统的专业书籍进行学习。

目前较为成熟的大数据处理框架包括Hadoop（适用于离线处理）、Spark（支持离线处理和准实时处理）、Storm（适用于实时处理）等。此外，还有Mahout、Spark MLlib、Scikit-Learn和TensorFlow等工具，可用于离线机器学习和深度学习。

大数据通常指的是大量历史数据的积累，但在实际应用中，重要的是如何高效地处理这些数据。例如，通过分布式存储、表分区、索引和压缩存储等手段来提高查询效率。然而，大数据的核心并不在于存储量，而是如何通过技术手段提升业务效率和决策质量。

对于大规模数据存储和查询效率问题，可以采用分布式存储、表分区、索引和压缩存储等技术手段进行优化。这些方法能够显著提升查询速度，但并不属于大数据研究的核心内容。

机器学习适用于特征提取清晰且易于解释的应用场景。例如，在图像识别、语音识别等领域，随着深度学习技术的发展，很多复杂问题得到了有效解决。如果特征难以提取或完全未知，则可能不适合直接应用机器学习技术。

作为一位Python开发工程师，我整理了一份涵盖从基础到高级的Python学习资料，包括Web开发、爬虫、数据分析、数据可视化和机器学习等内容。如果有需要，欢迎关注并私信“01”获取更多资源。

责任编辑：：广电独家

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-10-13

华为汪军：有些AI并不是真正的AI，只是简单的机器学习