background picture of the home page

Welcome to Keggin's blog!!!

DBSCAN聚类算法Python实战:从原理入门到可视化调参教程

相比于K-means需要事先指定k值且只能找到球形或凸形聚类、易将所有点分配到某个聚类,容易受异常值影响的缺点,DBscan由于考虑到了噪声点的影响,因此能够更好地完成聚类的任务。一般来说,当待分类的数据中,包含噪声数据,聚类形状不规则或者不知道聚类的具体数量的时候,我们常采用的是DBSCAN,而不

thumbnail of the cover of the post

AGNES算法实战:用Python对西瓜数据集进行聚类(附源码)

K-means的缺点 K-means要求必须预设k值 - 需要事先知道或估计簇的数量,且其出初始点十分敏感,不同的初始中心可能导致不同结果,且其直接假设簇是球形的,这在一定程度上是不可能的,而层次聚类(hierarchical clustering)则没有这种问题,他在使用前不需要提前限定簇的个数,

thumbnail of the cover of the post

Python实现购物篮分析:从Apriori到FP-Growth算法实战

以生活中常见的超市购物为例,我们熟知的啤酒与尿布故事是指某超市在对顾客购物习惯分析时,发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段,最后使得啤酒与尿布销量双双提升。这是因为啤酒与尿布之间存在某种巧妙的相互关联,这种关联使得二者容易同时

thumbnail of the cover of the post

数据包络分析(DEA)入门:从原理到DEAP软件实战教程

DEA是一种用来衡量、评价效率的一种有效数学模型,是运筹学、数理经济学与管理科学交叉研究的一个新领域,它是根据多项投入指标和多项产出指标,利用线性规划的方法,对具有可比性的同类型单位进行相对有效性评价的一种数量分析方法。 模型简介 以公司的办事效率作为评判对象,进行数据包络分析的简介,一个公司的办事

thumbnail of the cover of the post