无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。
无监督学习算法有几种类型,以下是其中最重要的12种:
1、聚类算法根据相似性将数据点分组成簇
k-means聚类是一种流行的聚类算法,它将数据划分为k组。
2、降维算法降低了数据的维数,使其更容易可视化和处理
主成分分析(PCA)是一种降维算法,将数据投影到低维空间,PCA可以用来将数据降维到其最重要的特征。
2025年05月14日
无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。
无监督学习算法有几种类型,以下是其中最重要的12种:
1、聚类算法根据相似性将数据点分组成簇
k-means聚类是一种流行的聚类算法,它将数据划分为k组。
2、降维算法降低了数据的维数,使其更容易可视化和处理
主成分分析(PCA)是一种降维算法,将数据投影到低维空间,PCA可以用来将数据降维到其最重要的特征。
2025年05月14日
1、聚类
常用的包: fpc,cluster,pvclust,mclust
基于划分的方法: kmeans, pam, pamk, clara
基于层次的方法: hclust, pvclust, agnes, diana
基于模型的方法: mclust
基于密度的方法: dbscan
基于画图的方法: plotcluster, plot.hclust
基于验证的方法: cluster.stats
2025年05月14日
在实际工作中,数据往往杂乱无章、不完整且不一致,仅靠简单的数据清洗方法很难彻底解决问题。有经验的数据专业人士都知道,真正高效的数据清洗远不止删除几个空值或去除重复行那么简单。
2025年05月14日
在前面的文章中,我们讲了KNN算法的原理与简单应用,KNN一种有监督学习的分类算法,也就是说该算法首先需要训练数据来进行学习之后才能对数据进行分类。在本文中我们讲到的DBSCAN聚类算法,也属于一种数据分类算法,只不过该算法不需要任何训练数据就能对数据进行分类,因此该算法属于无监督的数据分类算法。本文中我们首先讲一下该算法的原理,然后举一个例子来说明该算法的应用。
1. DBSCAN算法原理
首先介绍该算法的主要概念与参数:
2025年05月14日
在机器学习领域,无监督聚类是一种重要的数据分析技术,它能够将数据集中相似的数据点划分为不同的簇。然而,在实际应用中,我们往往并不知道数据集中具体存在多少个簇。例如,给定一组三维向量,需要根据欧几里得距离将它们聚类,使得同一簇内任意两个向量之间的欧几里得距离小于某个阈值
2025年05月14日
聚类分析是机器学习中的一种无监督学习方法,旨在将数据划分为具有相似特征的组(簇)。以下是常见聚类算法的总结及其关键要点:
1. K-means算法
2025年05月14日
前两天讲解了K-mean聚类和层次聚类的原理和实现方法,今天讲解经典聚类算法的最后一个那就是密度聚类。在此之前再给同学们补充一下昨天的层次聚类机器学习包调用的代码:
from sklearn.cluster import AgglomerativeClustering#导入层次聚类库
cluster = AgglomerativeClustering(n_clusters=4, affinity='euclidean', linkage='ward') #聚类数为4
cluster.fit_predict(data_scaled)#训练数据
2025年05月14日
1、预备知识
密度聚类方法的核心是,只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中。该算法的优势是可发现任意形状的聚类,且对噪声数据不敏感;但是计算密度单元的计算复杂度大,需要建立空间索引来降低计算量。
2、DBSCAN算法核心
DBCSAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的聚类。
2025年05月14日
聚类算法是一种无监督学习方法,它可以根据数据对象之间的相似度或距离,将它们划分为不同的簇或类别,使得同一簇内的对象尽可能相似,不同簇间的对象尽可能不同。
机器学习中的聚类算法有很多种,根据不同的划分原则和优化目标,可以分为以下几类: