​SPSS聚类分析操作

SPSS的聚类分析是一种基于统计学的数据分析方法,通过对数据样本进行分类,找出相似性较高的数据对象,帮助用户发现数据内部的模式和结构,辅助决策制定和市场细分等,为用户提供了有效的数据分析和洞察工具。

一.简介

常言道:“物以类聚”,对事物分门别类进行研究,有利于我们做出正确的判断。日常生活中,我们不自觉地用定性方法将人分为“好人”、“坏人”;按熟悉程度分为“朋友”、“熟人”、“陌生人”等等。

通过分类,有利于我们抓住重点,从总体上去把握事物,找出解决问题的方法。例如,对股票进行分类,可以为我们投资提供参考。

二.主要功能

调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。

所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。

三.分类

1.系统聚类法(分层聚类):是应用最广泛的一种

2.非系统聚类法(快速聚类法)

3.两步聚类法

四.分类原则

1.同一类中的分类对象在某种意义上趋于彼此相似(有较大的相似性)

2.不同类中的分类对象趋于不相似(有很大的差异) 

五.聚类的步骤

1.分析研究对象,明确若干相关变量(指标)

2.收集变量对应的样本数据

3.对数据进行预处理,比如填补缺失值

4.对变量进行标准化

5.开展聚类分析,形成聚类谱系图

6.对结果开展分析讨论

六.实例操作

[例]为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。

1.数据准备:

激活数据管理窗口,定义变量名:虽然月份分组不作分析变量,但为了更直观地了解聚类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别为x1、x2、x3和x4,输入原始数额。

 2.统计分析

 激活Statistics菜单选Classify中的K-Means Cluster...项,弹出K-Means Cluster Analysis对话框。从对话框左侧的变量列表中选x1、x2、x3、x4,点击钮使之进入VarIABles框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,;在聚类方法上有两种:Iterate and classify指先定初始类别中心点,而后按K-means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法。

为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-Means Cluster:Save New VarIABles对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。 本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-Means Cluster:来Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Means Cluster Analysis对话框,再点击OK钮即完成分析。

3.结果解释

在结果输出窗口中将看到如下统计数据: 首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。

guxing 2023-03-13