如何经过机器学习之聚类k-means算法找到NBA中的超级巨星？

贺晴明
2020-07-08 05:42:54 4

+关注

NBA 数据分析：控卫表现评估

我们手头有一份2013年NBA球员的数据集，其中包括球员的基本信息和比赛数据。本文主要关注控卫的表现评估，具体包括控卫的场均得分和助攻失误比。

数据筛选

我们从整体数据集中筛选出控卫的数据，并计算他们的一些关键指标： - 场均得分：控卫每场比赛的平均得分。 - 助攻失误比：控卫的助攻数与失误数的比例。

以下是实现这些指标的代码示例：

```python import pandas as pd import numpy as np import matplotlib.pyplot as plt

假设nba是已经加载好的DataFrame

pointguards = nba[nba['pos'] == 'PG'] pointguards['ppg'] = pointguards['pts'] / pointguards['g'] pointguards = pointguards[pointguards['tov'] != 0] pointguards['atr'] = pointguards['ast'] / pointguards['tov'] ```

数据可视化

接下来，我们绘制控卫的场均得分与助攻失误比的散点图，以便直观地观察这些数据的分布情况。

python plt.scatter(point_guards['ppg'], point_guards['atr'], c='y') plt.title("Point Guards") plt.xlabel('Points Per Game', fontsize=13) plt.ylabel('Assist Turnover Ratio', fontsize=13) plt.show()

聚类分析

为了进一步分析这些数据，我们使用聚类算法对控卫进行分类。具体来说，我们将数据分为五类，并通过迭代更新聚类中心来优化分类效果。

以下是实现聚类分析的步骤：

随机选择初始聚类中心： python num_clusters = 5 random_initial_points = np.random.choice(point_guards.index, size=num_clusters) centroids = point_guards.loc[random_initial_points]
计算样本点与聚类中心的距离： ```python def calculatedistance(centroid, playervalues): distance = 0 for i in range(len(centroid)): distance += (centroid[i] - player_values[i]) * 2 return distance * 0.5

q = [5, 2] p = [3, 1] print(calculate_distance(q, p)) ```
分配样本点到最近的聚类中心： ```python def assigntocluster(row): distances = [] for centroid in centroids.values: distance = calculatedistance(centroid, [row['ppg'], row['atr']]) distances.append(distance) closestcluster = np.argmin(distances) return closest_cluster

pointguards['cluster'] = pointguards.apply(lambda row: assigntocluster(row), axis=1) ```
重新计算聚类中心： ```python def recalculatecentroids(df): newcentroids = {} for cluster in range(numclusters): clusterdata = df[df['cluster'] == cluster] newcentroids[cluster] = [ clusterdata['ppg'].mean(), clusterdata['atr'].mean() ] return newcentroids

centroidsdict = recalculatecentroids(point_guards) ```
重复上述步骤，直到聚类中心不再变化： python visualize_clusters(point_guards, 5)