background picture of the home page

Welcome to Keggin's blog!!!

DBSCAN聚类算法Python实战:从原理入门到可视化调参教程

相比于K-means需要事先指定k值且只能找到球形或凸形聚类、易将所有点分配到某个聚类,容易受异常值影响的缺点,DBscan由于考虑到了噪声点的影响,因此能够更好地完成聚类的任务。一般来说,当待分类的数据中,包含噪声数据,聚类形状不规则或者不知道聚类的具体数量的时候,我们常采用的是DBSCAN,而不

thumbnail of the cover of the post

AGNES算法实战:用Python对西瓜数据集进行聚类(附源码)

K-means的缺点 K-means要求必须预设k值 - 需要事先知道或估计簇的数量,且其出初始点十分敏感,不同的初始中心可能导致不同结果,且其直接假设簇是球形的,这在一定程度上是不可能的,而层次聚类(hierarchical clustering)则没有这种问题,他在使用前不需要提前限定簇的个数,

thumbnail of the cover of the post

Python实现购物篮分析:从Apriori到FP-Growth算法实战

以生活中常见的超市购物为例,我们熟知的啤酒与尿布故事是指某超市在对顾客购物习惯分析时,发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段,最后使得啤酒与尿布销量双双提升。这是因为啤酒与尿布之间存在某种巧妙的相互关联,这种关联使得二者容易同时

thumbnail of the cover of the post