新精算师必须了解机器学习

2020-06-01 10:18:48 5

专业在发展

机器学习（ML）已经成为一个不可避免的话题，它也引起了精算行业的广泛关注。机器学习可以简单地定义为“编程计算机以使其能够从数据中学习”，这一定义出自A. Géron在其2019年的著作中。事实上，它已成为一种强大的工具，许多拥有大量数据的公司可以通过它提取有价值的见解，从而提升其产品和服务的质量。

对于精算师而言，情况也是如此。由于精算师在数据和建模技术方面有着悠久的历史，他们有时被称为“最早的数据科学家”。这两个领域之间存在大量的重叠，这也是为什么越来越多的精算师在日常工作中使用机器学习工具的原因。无论是挖掘以前未被充分利用的数据（如从文本字段或图像中提取信息），还是利用现有数据和算法实现更高效的应用，事实都十分清楚——机器学习将继续存在。

只有一个问题

尽管自1990年代以来，某些机器学习算法一直在后台默默工作，但似乎世界越来越关注人工智能（AI）。业务应用场景非常广泛，AI和ML已经被应用于各种产品和服务中，比如我们的手机、我们喜爱的网站以及我们每天依赖的工业生产流程。同样，机器学习也可以在精算领域发挥重要作用：分析死亡率趋势、为保险产品定价、预测财务数据等。

然而，精算师的培训内容却未能跟上时代的发展。教育上的滞后使得现有的教材显得过时。精算课程似乎有失去相关性的风险。

解决方案

不过，这一切在2019年发生了改变。课程大纲进行了修订，引入了新的材料，同时淘汰了一些不再重要的旧材料。例如，精算师学院（IFoA）的CS2科目考试新增了一部分内容，涵盖了机器学习以及与CM1科目相关的“数据分析”主题。这些变化是为了“确保课程设置的相关性、时效性，并反映精算师在瞬息万变的全球商业环境中所需的知识和技能”。

根据新的课程大纲，机器学习现在占据了CS2考试的10%，涵盖五个学习目标：

ML的分支及其解决的问题类型
关于从数据中学习的高级概念
关键技术的描述和示例
如何将ML技术应用于实际问题
理解其他非精算师的观点（如数据科学家、统计学家等）

这些内容似乎是对该主题的一个全面介绍。让我们来看看核心阅读中包含的关键主题，并了解如何实现上述目标。

机器学习的定义和范围

我们从一些基本的定义和解释开始，了解ML适用于哪些问题。对于经典方法能够解决问题的情况，开发复杂的ML算法是没有太大意义的；同样，如果没有在数据中检测到真实模式，ML也无法发挥作用。

在以一些具体示例（如定向广告、预测选举、预测贷款违约）开头后，材料变得更加正式，将机器学习过程描述为逼近将一组可测量变量映射到输入的目标函数。这部分内容不怕透露算法和问题的数学性质，这对于那些只听说过ML但对其缺乏深入了解的人来说可能是一个可喜的变化。

关键概念概述

接下来是对该领域关键概念的讨论，主要包括：

损失函数
评估模型的方法（如准确性、精确率、召回率、混淆矩阵等）
参数和超参数
训练、验证和测试集
过度拟合
模型正则化

这些概念得到了很好的阐述，但只是理论上的描述。机器学习是需要动手实践才能真正掌握的领域之一。建议使用一些优秀的在线资源或参加培训班，以实现对这些概念的端到端理解和应用。

机器学习分支

这里对不同类型的ML算法进行了本质上的区分，包括监督学习、无监督学习、半监督学习和强化学习技术。此外，还介绍了回归与分类、生成与判别模型，以及其他实际应用。这部分内容对主题进行了很好的综述，但还需要进一步的研究来巩固一些概念。观看视频、阅读书籍和博客，尝试自己构建联系，以充分吸收材料。

机器学习过程

这里概述了ML项目的常规步骤，包括数据收集、探索性数据分析、数据准备、模型训练、验证与测试、改善模型性能以及文档记录和可重复性的重要性。精算师会熟悉他们在课程中遇到的数学模型，但关键在于这只是ML故事的一部分。如果你希望将知识应用于实际的业务案例，就需要对整个过程有深刻的理解。

关键算法

接下来讨论了一些关键算法，特别是：

惩罚广义线性模型
朴素贝叶斯分类
决策树
K均值聚类

这些内容有许多材料，这是一件好事，因为它们建立在前面介绍的一些概念之上，并且与当前的主题密切相关。那些熟悉CS1中的回归、广义线性模型和主成分分析以及CS2中的比例风险模型的人会很高兴看到这些概念得到了扩展。

其他定量研究人员的观点

最后，我们讨论了机器学习从业者与其他传统研究人员（如统计学家）之间的观点差异。这部分内容讨论了两组之间沟通的难点，特别是在使用不同术语或对分析的不同方面感兴趣时。机器学习是一个跨学科的研究领域，因此从业者经常需要与其他背景的专业人员进行交流。这部分很好地补充了材料，因为它从实际的角度出发，讨论了在理想世界中开发和使用机器学习解决方案时出现的一些常见但同样重要的问题。

那么最终它又怎么进入考试呢？

任何学生（勇敢地承认这一点）都知道，倾向于对实际测试的材料投入更多精力。虽然阅读中的所有内容都是可检查的，但这是自引入新材料以来的几次会议中发生的事情。

2019年4月——关于有监督学习与无监督学习的简短问题以及每种学习方法的示例。较长的问题涉及模型性能指标的计算和解释。

2019年9月——关于训练、验证和测试方法的较长问题。在给定的示例场景中评估机器学习是否适用。讨论具有更多参数的更复杂模型的优缺点。

代码在哪里？

似乎不愿意让学生参与一些使用Python或R进行的实际、端到端的ML项目，这似乎是一个遗憾——尤其是现在，使用R进行数据分析和精算统计已经不仅限于两次IFoA考试。即使新的数据科学证书也不需要编写代码即可完成。一方面，这似乎完全不合理——毕竟，学习数据科学或机器学习的最佳方式可能是让自己沉浸其中，并开始使用感兴趣的任何数据集。

不过，请注意，IFoA并不是要培养数据科学家。相反，他们的目标是“帮助精算师在职业生涯的任何阶段，通过实例和案例研究了解数据科学工具和技术，以及如何将它们应用于基础知识”（可在IFoA网站上找到）。从本质上讲，你不需要成为机器学习的专家，但你需要了解其含义以及如何运用它，因为它在整个行业中越来越普及。

展望

精算师的角色正在发生变化。去年，IFoA总裁约翰·泰勒（John Taylor）主持了该行业内数据科学的快速发展。显然，这只是第一步——更新整个行业当然不是一件容易的事，但这显然是正确的选择。在IFoA的课程中引入数据科学和机器学习技术，是为了巩固精算师作为专业人士的地位，他们能够为客户创造真正的价值，并随着精算师在行业中的不断发展，这种方法变得越来越重要。