KMeans Clustering using Python(KMeans表示使用Python进行集群)
本文介绍了KMeans表示使用Python进行集群的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我有一个数据集
Name System
A AZ
A NaN
B AZ
B NaN
B NaN
C AY
C AY
D AZ
E AY
E AY
E NaN
F AZ
F AZ
F NaN
使用此数据集时,我需要根据";系统&为特定";名称&Quot;重复的次数对数据集进行群集。
在上面的示例中,名称A、B和D有一个子集,而C、E有两个子集,F有两个AZ,因此它是一个不同的集群。
输出示例:
Cluster Names
AZ A,B
AY,AY C,E
AZ,AZ F
PS。实际数据集的行数和列数可能不同 如何使用基于ML的聚类算法(如KNN、朴素贝叶斯等)来实现这一点? 我需要两种方法,一种不忽略NaN,另一种忽略NaN。
推荐答案
IIUC,这看起来像一个双倍groupby
。您首先需要按名称和系统进行分组,并聚合系统以形成集群。则这是一个简单的groupby
,聚合为字符串。
(df.groupby(['Name', 'System'])
['System'].agg(Cluster=','.join) # clusters of repeats
.droplevel('System').reset_index()
.groupby('Cluster')['Name'].agg(','.join) # aggregate by cluster
.reset_index()
)
输出:
Cluster Name
0 AY,AY C,E
1 AZ A,B,D
2 AZ,AZ F
Nb。我在这里使用了','.join
聚合,但您也可以使用tuple
或自定义函数(第一个groupby
)和frozenset
(第二个groupby
)来保持对单个元素的访问
(df.groupby(['Name', 'System'], dropna=False)
['System'].agg(Cluster=lambda x: (x.iloc[0], len(x)))
.droplevel('System').reset_index()
.groupby('Cluster')['Name'].agg(frozenset)
.reset_index()
)
输出:
Cluster Name
0 (AY, 2) (E, C)
1 (AZ, 1) (B, A, D)
2 (AZ, 2) (F)
3 (nan, 1) (E, F, A)
4 (nan, 2) (B)
这篇关于KMeans表示使用Python进行集群的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持编程学习网!
沃梦达教程
本文标题为:KMeans表示使用Python进行集群


猜你喜欢
- 检查具有纬度和经度的地理点是否在 shapefile 中 2022-01-01
- 我如何透明地重定向一个Python导入? 2022-01-01
- YouTube API v3 返回截断的观看记录 2022-01-01
- 如何使用PYSPARK从Spark获得批次行 2022-01-01
- 计算测试数量的Python单元测试 2022-01-01
- ";find_element_by_name(';name';)";和&QOOT;FIND_ELEMENT(BY NAME,';NAME';)";之间有什么区别? 2022-01-01
- 使用公司代理使Python3.x Slack(松弛客户端) 2022-01-01
- 我如何卸载 PyTorch? 2022-01-01
- 使用 Cython 将 Python 链接到共享库 2022-01-01
- CTR 中的 AES 如何用于 Python 和 PyCrypto? 2022-01-01