61阅读

模糊聚类分析-模糊聚类分析的应用

发布时间:2018-01-29 所属栏目:聚类分析的分类

一 : 模糊聚类分析的应用

数学建模

论文题目:模糊聚类分析在数学考研真题中的应用

摘 要

本文采用模糊聚类分析方法和GM(1,1)灰色预测模型,利用软件matlab求解,预测出出卷者在未来怎样出题以及对考研者的复习指导。

关键词

:模糊聚类分析 相关系数法 平方法 matlab 时间序列

一、问题的重述

在数学建模中,如何用模糊数学中的“模糊聚类分析的方法解决近10年数学考研试题”这一个很模糊的问题?

二、模型假设

①假设本小组从网上下载的考研真题具有真实性。

②假设从题目中提取的数据是合理的。

③假设本小组所用的算法在电脑中执行的结果是正确的。

三、变量说明

函数 ---------------------------------- x1 极限 ---------------------------------- x2 连续 ---------------------------------- x3 一元函数微积分学 ---------------------------------- x4 向量代数与空间解析几何 ---------------------------------- x5 多元函数的微积分学 ---------------------------------- x6 无穷级数 ---------------------------------- x7 常微分方程 ---------------------------------- x8 行列式 ---------------------------------- x9 矩阵 ---------------------------------- x10 向量 ---------------------------------- x11 线性方程组 ---------------------------------- x12 矩阵的特征值和特征向量 ---------------------------------- x13 二次型 ---------------------------------- x14 随机事件和概率 ---------------------------------- x15 随机变量及其概率分布 ---------------------------------- x16 二维随机变量及其概率分布 ---------------------------------- x17 随机变量的数字特征 ---------------------------------- x18 大数定律和中心极限定理 ---------------------------------- x19 数理统计的基本概念 ---------------------------------- x20 参数估计 ---------------------------------- x21

四、模型的准备

首先,本小组对2004-2013年的数学考研试题中的每一道题目进行知识点的标记,然后对所有标记的题目通过知识点进行统计,如下表:

表1

其中,表中的数据又分为三类:

高等数学(x1至x8)

线性代数(x9至x14)

概率论与数理统计(x15至x21)

五、模型的建立与求解

模型一

通过上面模型的准备,下面开始对数进行相应的处理。对上面每一类的数据进行相应的处理得到模糊相似矩阵,下面以高等数学中的知识点为例。

步骤如下:

(1)提取表1中的x1到x8中的数据,利用相关系数法,构造模糊相似关系矩阵C?(cij)n?n,即C?(cij)8?8。其中

?(cj?ci)2

cij?e

(xi?xj)2 ci,cj分别为矩阵C每一行和每一列的均值;

xi,xj分别为矩阵C每一行和每一列的标准差;

i?j,j为原始数据所得矩阵的列数。

利用软件matlab编写程序得到高等数学知识点的模糊相似矩阵:

? 1.0000 0.8379 0.2868 0.9671 0.0113 0.8572 0.0269 0.0072?? 0.8379 1.0000 0.5732 0.9950 0.0911 1.0000 0.1481 0.0880???? 0.2868 0.5732 1.0000 0.7310 0.8442 0.6068 0.8908 0.9208??? 0.9671 0.9950 0.7310 1.0000 0.3739 0.9954 0.4337 0.4046?C??? 0.0113 0.0911 0.8442 0.3739 1.0000 0.1266 0.9953 0.9338? ??? 0.8572 1.0000 0.6068 0.9954 0.1266 1.0000 0.1895 0.1284?? 0.0269 0.1481 0.8908 0.4337 0.9953 0.1895 1.0000 0.9751????? 0.0072 0.0880 0.9208 0.4046 0.9338 0.1284 0.9751 1.0000??

(2)利用平方法,得到模糊相似矩阵C的模糊等价矩阵。利用matlab计算(代码见附录)得到,且R

?C?C3。

?1.0000 0.9671 0.7310 0.9671 0.7310 0.9671 0.7310 0.7310??0.9671 1.0000 0.7310 0.9954 0.7310 1.0000 0.7310 0.7310????0.7310 0.7310 1.0000 0.7310 0.9208 0.7310 0.9208 0.9208???0.9671 0.9954 0.7310 1.0000 0.7310 0.9954 0.7310 0.7310?R???0.7310 0.7310 0.9208 0.7310 1.0000 0.7310 0.9953 0.9751? ???0.9671 1.0000 0.7310 0.9954 0.7310 1.0000 0.7310 0.7310??0.7310 0.7310 0.9208 0.7310 0.9953 0.7310 1.0000 0.9751?????0.7310 0.7310 0.9208 0.7310 0.9751 0.7310 0.9751 1.0000??

取??0.995(见附录),得到:

? 1 0 0 0 0 0 0 0?? 0 1 0 1 0 1 0 0???? 0 0 1 0 0 0 0 0??? 0 1 0 1 0 1 0 0??R??? 0 0 0 0 1 0 1 0???? 0 1 0 1 0 1 0 0?

? 0 0 0 0 1 0 1 0????? 0 0 0 0 0 0 0 1??

通过上面的矩阵R?对上面的x1至x8进行分类得到如下的结果: (x1),(x2,x4,x6),(x3,),(x5,x7),(x8)

下面对所分类的结果进行检验:

利用软件matlab的命令把(x2,x4,x6),(x5,x7)的图形分别画出如下:

各知识点出现的次数

各知识点出现的次数

年份

年份

图1

通过图1确定:

x5和x7的走向趋势具有相反性,x2与x4具有一致性,均与x6具有相反性。

同上面的过程,我们再对线性代数和概率论与数理统计就简单了。

线性代数的步骤如下: 数据来源于(x9至x14) 模糊相似矩阵

? 1.0000 0.1353 0.9511 0.9262 0.9511 1.0000?? 0.1353 1.0000 0.1998 0.2934 0.1998 0.0724???? 0.9511 0.1998 1.0000 0.9947 1.0000 0.9352?C???

0.9262 0.2934 0.9947 1.0000 0.9947 0.9048?? ? 0.9511 0.1998 1.0000 0.9947 1.0000 0.9352????? 1.0000 0.0724 0.9352 0.9048 0.9352 1.0000??

模糊等价矩阵

?1.0000 0.2934 0.9511 0.9511 0.9511 1.0000??0.2934 1.0000 0.2934 0.2934 0.2934 0.2934????0.9511 0.2934 1.0000 0.9947 1.0000 0.9511?R???

0.9511 0.2934 0.9947 1.0000 0.9947 0.9511?? ?0.9511 0.2934 1.0000 0.9947 1.0000 0.9511?????1.0000 0.2934 0.9511 0.9511 0.9511 1.0000??

取??0.996(见附录),得到:

?1 0 0 0 0 1??0 1 0 0 0 0????0 0 1 0 1 0?R????

?0 0 0 1 0 0??0 0 1 0 1 0? ????1 0 0 0 0 1??

通过上面的矩阵R?对上面的x9至x14进行分类得到如下的结果: (x9,x14),(x11,x13),(x10),(x12)

下面对所分类的结果进行检验:

利用软件matlab的命令把(x9,x14),(x11,x13)的图形分别画出如下:

各知识点出现的次数

各知识点出现的次数

年份

年份

图2

从上面的图2中得出结论:

x9与x14具有相反性,x11与x13具有相反性。

概率论与数理统计的步骤如下:

数据来源于(x15至x21)

模糊相似矩阵:

? 1.0000 0.7743 0.4412 0.9934 0.8804 0.7847 1.0000?? 0.7743 1.0000 0.9527 0.6790 0.4727 0.3660 0.7278???? 0.4412 0.9527 1.0000 0.2938 0.1165 0.0541 0.3416???C?? 0.9934 0.6790 0.2938 1.0000 0.9048 0.7985 0.9909? ? 0.8804 0.4727 0.1165 0.9048 1.0000 0.9818 0.8337??? 0.7847 0.3660 0.0541 0.7985 0.9818 1.0000 0.6972??? 1.0000 0.7278 0.3416 0.9909 0.8337 0.6972 1.0000???模糊等价矩阵:

?1.0000 0.2934 0.9511 0.9511 0.9511 1.0000??0.2934 1.0000 0.2934 0.2934 0.2934 0.2934????0.9511 0.2934 1.0000 0.9947 1.0000 0.9511?R????0.9511 0.2934 0.9947 1.0000 0.9947 0.9511? ?0.9511 0.2934 1.0000 0.9947 1.0000 0.9511?????1.0000 0.2934 0.9511 0.9511 0.9511 1.0000??

取??0.999(见附录),得到:

?1 0 0 0 0 0 1??0 1 0 0 0 0 0????0 0 1 0 0 0 0???R???0 0 0 1 0 0 0??0 0 0 0 1 0 0? ???0 0 0 0 0 1 0??1 0 0 0 0 0 1???

通过上面的矩阵R?对上面的x15至x21进行分类得到如下的结果:

(x15,x21),(x16),(x17),(x18),(x19),(x20)

下面对所分类的结果进行检验:

各知识点出现的次数年份

图3

通过图3得出:

x15与x21具有相反性。

模型二

下面开始通过灰色预测模型(GM(1,1))来对2014年各知识点出现的频率做预测。

记x(0)为原始数列

x(0)=(x(0)(k)xk=1,2,?,n)=(x(0)⑴,x(0)⑵,?,x(0)(n))

记x⑴为生成数列

x⑴=(x⑴(k)xk=1,2,?,n)=(x⑴⑴,x⑴⑵,?,x⑴(n))

如果x(0) 与x⑴之间满足下列关系,即

称为一次累加生成。

5建模步骤

a、建模机理

b、 把原始数据加工成生成数;

c、 对残差(模型计算值与实际值之差)修订后,建立差分微分方程模型;

d、 基于关联度收敛的分析;

e、 gm模型所得数据须经过逆生成还原后才能用。

f、采用“五步建模(系统定性分析、因素分析、初步量化、动态量化、优化)”法,

建立一种差分微分方程模型gm(1,1)预测模型。

GM(1,1)模型

令 x(0)=(x⑴,x⑵,?,x(n))

作一次累加生成, k

x(k)= ∑x(m) 消除数据的随机性和波动性

m=1

有 x=(x⑴,x⑵,?,x(n))

=(x⑴,x⑴+x⑵,?,x(n-1)+x(n))

x可建立白化方程:dx/dt+ax=u 即gm(1,1).

该方程的解为: x(k+1)=(x⑴-u/a)e+u/a

其中:α称为发展灰数;μ称为内生控制灰数

利用matlab软件预测2014年21个变量的值,得到的结果如下表(代码见附录):

各知识点出现的次数

预测 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 2014 3 3 1 4 1 3 0 1 1 3 0 1 1 3 0 2 2 0 0 0

x211

六、模型结果的分析

通过上面模型一和模型二的建立与求解过程,可以得出:

x5和x7的走向趋势具有相反性,x2与x4具有一致性,均与x6具有相反性。 x9与x14具有相反性,x11与x13具有相反性。

x15与x21具有相反性。

从而可以对考研者在未来一年的考研辅导过程中,进行以下指导:

对x1、x2、x4、x6、x10、x14、x16、x17重点复习,但是在复习x2、x4、x6时,先复习x2和x4,因为x6呈下降趋势,x2、x4与x6具有相反性。在复习x5和x7时重点复习x5,x7可以不复习,因为在预测中x7=0,x5=1;表示复习x5,符合x5和x7具有相反性。在复习x9和x14时重点复习x14,虽然可能会考x9,但可正常复习一下x9即可。在复习x11和x13以及x15和x21的时候,只需复习x13,x11可以简单盖过,符合x11与x13具有相反性;只需复习x21,x15可以简单盖过,符合x15与x21具有相反性。其他的知识点,根据预测的结果得出以下结论:x3 x8 x10均需复习,x18 x19 x20可以简单的复习一下。

对于出卷者而言:

在高数方面,重点出x1 x2 x4 x6四个知识点,x7不出,其他的知识点正常出题; 在线性代数方面,重点出x10 x14,x11不出,其他的知识点正常出题;

在概率论与数理统计方面,重点出x16 x17,再出x21,其他的知识点可以不出。

七、模型的优缺点

1、模糊聚类分析 优点:聚类分析模型的优点就是直观,结论形式简明。

缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。

2、灰色预测模型

优点:要求负荷数据少、不考虑分布规律、不考虑变化趋势、运算方便、短期预测精度高、易于检验。

缺点:当数据离散程度大,即数据灰度大,预测精度越差。为了解决这一问题,一般提出对历史数据的平滑处理、模型参数修正等方法。

八、参考文献

[美] MATLAB实用教程(第二版) Holly Moore 著 高会生 刘童娜 议

十、附录

调用函数代码:

预测结果代码:

二 : 聚类分析:聚类分析-定义,聚类分析-判别分析模型

聚类分析(Cluster Analysis),又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

聚类分析_聚类分析 -定义

[www.61k.com)依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。

各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入1类。

各指标之间具有一定的相关关系。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析区别于分类分析(classification analysis) ,后者是有监督的学习。

变量类型:定类变量、定量(离散和连续)变量

聚类方法

1,层次聚类(Hierarchical Clustering)

合并法、分解法、树状图

2. 非层次聚类

划分聚类、谱聚类

聚类方法特征:

聚类分析简单、直观。

聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;

不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;

聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。

研究者在使用聚类分析时应特别注意可能影响结果的各个因素。

异常值和特殊的变量对聚类有较大影响

当分类变量的测量尺度不一致时,需要事先做标准化处理。

当然,聚类分析不能做的事情是:

自动发现和告诉你应该分成多少个类——属于非监督类分析方法

期望能很清楚的找到大致相等的类或细分市场是不现实的;

样本聚类,变量之间的关系需要研究者决定;

不会自动给出1个最佳聚类结果;

我这里提到的聚类分析主要是谱系聚类(hierarchical clustering)和快速聚类(K-means)、两阶段聚类(Two-Step);

根据聚类变量得到的描述2个个体间(或变量间)的对应程度或联系紧密程度的度量。

可以用2种方式来测量:

1、采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性。

2、采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。

计算聚类——距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-Square measure) 等;相似性也有不少,主要是皮尔逊相关系数了!

聚类变量的测量尺度不同,需要事先对变量标准化;

聚类变量中如果有些变量非常相关,意味着这个变量的权重会更大

欧式距离的平方是最常用的距离测量方法;

聚类算法要比距离测量方法对聚类结果影响更大;

标准化方法影响聚类模式:

变量标准化倾向产生基于数量的聚类;

样本标准化倾向产生基于模式的聚类;

一般聚类个数在4-六类,不易太多,或太少;

统计量

群重心

群中心

群间距离

分层步骤

定义问题与选择分类变量

聚类方法

确定群组数目

聚类结果评估

结果的描述、解释

K-means

属于非层次聚类法的1种

(1)执行过程

初始化:选择(或人为指定)某些记录作为凝聚点

循环:

按就近原则将其余记录向凝聚点凝集

计算出各个初始分类的中心位置(均值)

用计算出的中心位置重新进行聚类

如此反复循环,直到凝聚点位置收敛为止

(2)方法特点

通常要求已知类别数

可人为指定初始位置

节省运算时间

样本量大于100时有必要考虑

只能使用连续性变量

过程

特点:

处理对象:分类变量和连续变量

自动决定最佳分类数

快速处理大数据集

前提假设:

变量间彼此独立

分类变量服从多项分布,连续变量服从正态分布

模型稳健

算法原理

第1步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成1个新类

第二步,对第1步中各类依据类间距离进行合并,按一定的标准,停止合并

判别分析 Discriminant Analysis

介绍: 判别分析

分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。

判别分析DA

概述

DA模型

DA有关的统计量

两组DA

案例分析

判别分析

判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的1种分析方法。核心是考察类别之间的差异。

判别分析

不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。

DA适用于定类变量(因)、任意变量(自)

2类:1个判别函数;

多组:1个以上判别函数

DA目的

建立判别函数

检查不同组之间在有关预测变量方面是否有显着差异

决定哪个预测变量对组间差异的贡献最大

根据预测变量对个体进行分类

聚类分析_聚类分析 -判别分析模型

要先建立判别函数 Y=a1x1+a2x2+...anxn,其中:Y为判别分数(判别值),x1 x2...xn为反映研究对象特征的变量,a1 a2...an为系数

聚类分析_聚类分析 -有关统计

典型相关系数

特征值

Wilk's ?(0, 1) = SSw/SSt for X

组重心

分类矩阵

聚类分析_聚类分析 -两组判别

定义问题

估计DA函数系数

确定DA函数的显着性

解释结果

评估有效性

定义问题

判别分析的第1步

第二步就是将样本分为:

分析样本

验证样本

估算判别函数系数

直接法(direct method)就是同时用所有的预测变量估计判别函数,此时每个自变量都包括在内,而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。

逐步判别分析(stepwise discriminant analysis),预测变量依据其对组别的判别能力被逐步引入。

确定显着性

零假设:总体中各组所有判别函数的均值相等。

特征值

典型相关系数

Wilk‘s ?(0, 1) 转换成卡方值检验

见travel.spo

解释结果

系数的符号无关紧要,但能够表示每个变量对判别函数值的影响,以及与特定组的联系。

我们可以通过标准化判别函数系数的绝对值初步判断变量的相对重要性。

通过考察结构相关系数,也可以对预测变量的相对重要性进行判断。

组重心

评估判别分析的有效性

根据分析样本估计出的判别权数,乘以保留样本中的预测变量值,就得出保留样本中每个样本的判别分。

可以根据判别分及适当的规则划分为不同的组别。

命中率(hit ratio)或称样本正确分类概率,就是分类矩阵对角线元素之和与总样本数的比例。

比较样本正确分类百分比与随机正确分类百分比。

聚类分析_聚类分析 -因子分析模型

因子分析模型(FA)

基本思想

因子分析模型

FA的基本思想

“因子分析”于1931年由Thurstone提出,概念起源于Pearson和Spearmen的统计分析

FA用少数几个因子来描述多个变量之间的关系,相关性较高的变量归于同1个因子;

FA利用潜在变量或本质因子(基本特征)去解释可观测变量

FA模型

X1=a11F1+a12F2+ …+a1pFp+v1

X2=a21F1+a22F2+ …+a2pFp+v2 X=AF+V

Xi=ai1F1+ai2F2+ …+aipFp+vi

Xm=ap1F1+ap2F2+ …+ampFm+vm

Xi — 第i个标准化变量

aip — 第i个变量对第p个公因子的标准回归系数

F — 公因子

Vi — 特殊因子

公因子模型

F1=W11X1+W12X2+ …+W1mXm

F2=W21X1+W22X2+ …+W2mXm

Fi=Wi1X1+Wi2X2+ …+WimXm

Fp=Wp1X1+Wp2X2+ …+WpmXm

Wi — 权重,因子得分系数

Fi — 第i个因子的估计值(因子得分)

有关统计量

Bartlett氏球体检验:各变量之间彼此独立

KMO值:FA合适性

因子负荷:相关系数

因子负荷矩阵

公因子方差(共同度)

特征值

方差百分比(方差贡献率)

累计方差贡献率

因子负荷图

碎石图

FA步骤

定义问题

检验FA方法的适用性

确定因子分析方法

因子旋转

解释因子

计算因子得分

注意事项

样本量不能太小

变量相关性

公因子有实际意义

三 : 模糊聚类分析的理论37

模糊分析的理论、方法与应用研究

摘要:二十世纪六十年代,产生了模糊数学这门新兴学科。模糊数学作为一个新兴的数学分支,使过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而显示了强大的生命力和渗透力,使数学的应用范围大大扩展。模糊数学自身的理论研究进展迅速;模糊数学目前在自动控制技术领域仍然得到最广泛的应用,并在计算机仿真技术、多媒体辨识等领域的应用取得突破性进展;模糊聚类分析理论和模糊综合评判原理等更多地被应用于经济管理、环境科学以及医药、生物、农业、文体等领域,并取得很好效果。

关键词:模糊数学;应用;模糊评判;模糊聚类。

前言:聚类就是把具有相似性质的事物区分开加以分类。聚类分析就是用数学方法研究和处理给定对象的分类,“人以群分,物以类聚”,聚类问题是一个古老的问题,是伴随着人类产生和发展不断深化的一个问题。人类要认识世界就必须要区分不同的事物并认识事物间的,聚类就是把具有相似性质的事物区分开加以分类。经典分类学往往是从单因素或有限的几个因素出发,凭经验和专业对事物分类。这种分类具有非此即彼的特性,同一事物归属且仅归属所划定类别中的一类,这种分类的类别界限是清晰的。随着着人们认识的深入,发现这种分类越来越不适用于具有模糊性的分类间题,如把人按身高分为“高个子的人’,“矮个子的人”,“不高不矮的人”。如何判别特定的一个人的类别便产生了经典分类学解决不了的困难。模糊数学的产生为上述软分类提供了数学基础,由此产生了模糊聚类分析。我们把应用普通数学方法进行分类的聚类方法称为普通聚类分析,而把应用模糊数学方法进行分析的聚类分析称为模糊聚类分析。1965年L. A. Zadeh创立了模糊集合论不久,E. H. Ruspinid于1969年引人了模糊划分的概念进行模糊聚类分析。I. Gitman和M. D. Levine提出了单峰模糊集方法用于处理大数据集和复杂分布的聚类。1974年J. C. Bezdek和J. C. Dunn提出了模糊ISODATA聚类方法。随着模糊数学传人我国,模糊聚类分析也传人了我国。其应用领域已包括了天气预报、气象分析、模式识别、生物、医学、化学等诸多领域。

1.模糊理论的产生

1.1模糊数学

1.1.1模糊数学的背景

精确数学是建立在经典集合论的基础之上,一个研究的对象对于某个给定的经典集合的关系要么是属于(记为“”),要么是不属于(记为“”),二者必居其一。19世纪,由于英国数学家布尔(Bool)等人的研究,这种基于二值逻辑的绝对思维方法抽象后成为布尔代数,它的出现促使数理逻辑成为一门很有适用价值的学科,同时也成为计算机科学的基础。但是,二值逻辑无法解决一些逻辑悖论,如著名的罗素(Russell)“理发师悖论”、“秃头悖论”、“克利特岛人说谎悖论”等等悖论问题。

传统数学所赖以存在的基石是普通集合论,是二值逻辑,而它是抛弃了事物的模糊性而抽象出来的,将人脑思维过程绝对化了,数学中普通集合描述的是“非此即彼”的清晰对象,而人脑还要识别那些“亦此亦彼”的模糊现象。日常生活中各种“模糊性”现象比比皆是,逻辑悖论的发现以及海森堡(Heisenberg)测不准原理的提出导致了多值逻辑在20世纪二三十年代的诞生。罗素在说到“所有的二值都习惯上假定使用精确符号,因此它仅适用于虚幻的存在,而不适用于现实生活,逻辑比其他学科使我们更接近于天堂”时就认识到了二值逻辑的不足。波兰逻辑学家卢卡塞维克兹(Lukasiewicz)首次正式提出了三值逻辑体系,把逻辑真值的值域由{0,1}二值扩展到{0,1/2,1}三值,其中1/2表示不确定,后来他又把真值范围从{0,1/2,1}进一步扩展到[0,1]之间的有理数,并最终扩展为[0,1]区间。

1.1.2模糊数学的发展

1965年,美国控制论专家、数学家查德发表了论文《模糊集合》,标志着模糊数学这门学科的诞生。

模糊数学的研究内容主要有以下三个方面:

第一,研究模糊数学的理论,以及它和精确数学、随机数学的关系。察德以精确数学集合论为基础,并考虑到对数学的集合概念进行修改和推广。他提出用“模糊集合”作为表现模糊事物的数学模型。并在“模糊集合”上逐步建立运

算、变换规律,开展有关的理论研究,就有可能构造出研究现实世界中的大量模糊的数学基础,能够对看来相当复杂的模糊系统进行定量的描述和处理的数学方法。

在模糊集合中,给定范围内元素对它的隶属关系不一定只有“是”或“否”两种情况,而是用介于0和1之间的实数来表示隶属程度,还存在中间过渡状态。比如“老人”是个模糊概念,70岁的肯定属于老人,它的从属程度是 1,40岁的人肯定不算老人,它的从属程度为 0,按照查德给出的公式,55岁属于“老”的程度为0.5,即“半老”,60岁属于“老”的程度0.8。查德认为,指明各个元素的隶属集合,就等于指定了一个集合。当隶属于0和1之间值时,就是模糊集合。

第二,研究模糊语言学和模糊逻辑。人类自然语言具有模糊性,人们经常接受模糊语言与模糊信息,并能做出正确的识别和判断。

为了实现用自然语言跟计算机进行直接对话,就必须把人类的语言和思维过程提炼成数学模型,才能给计算机输入指令,建立和是的模糊数学模型,这是运用数学方法的关键。查德采用模糊集合理论来建立模糊语言的数学模型,使人类语言数量化、形式化。

如果我们把合乎语法的标准句子的从属函数值定为1,那么,其他文法稍有错误,但尚能表达相仿的思想的句子,就可以用以0到1之间的连续数来表征它从属于“正确句子”的隶属程度。这样,就把模糊语言进行定量描述,并定出一套运算、变换规则。目前,模糊语言还很不成熟,语言学家正在深入研究。

人们的思维活动常常要求概念的确定性和精确性,采用形式逻辑的排中律,既非真既假,然后进行判断和推理,得出结论。现有的计算机都是建立在二值逻辑基础上的,它在处理客观事物的确定性方面,发挥了巨大的作用,但是却不具备处理事物和概念的不确定性或模糊性的能力。

为了使计算机能够模拟人脑高级智能的特点,就必须把计算机转到多值逻辑基础上,研究模糊逻辑。目前,模糊罗基还很不成熟,尚需继续研究。

第三,研究模糊数学的应用。模糊数学是以不确定性的事物为其研究对象的。模糊集合的出现是数学适应描述复杂事物的需要,查德的功绩在于用模糊集合的理论找到解决模糊性对象加以确切化,从而使研究确定性对象的数学与不确定性

对象的数学沟通起来,过去精确数学、随机数学描述感到不足之处,就能得到弥补。在模糊数学中,目前已有模糊拓扑学、模糊群论、模糊图论、模糊概率、模糊语言学、模糊逻辑学等分支。

1.1.3模糊数学的应用

模糊数学是一门新兴学科,它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面。在气象、结构力学、控制、心理学等方面已有具体的研究成果。然而模糊数学最重要的应用领域是计算机职能,不少人认为它与新一代计算机的研制有密切的联系。

目前,世界上发达国家正积极研究、试制具有智能化的模糊计算机,1986年日本山川烈博士首次试制成功模糊推理机,它的推理速度是1000万次/秒。1988年,我国汪培庄教授指导的几位博士也研制成功一台模糊推理机——分立元件样机,它的推理速度为1500万次/秒。这表明我国在突破模糊信息处理难关方面迈出了重要的一步。

2.模糊理论的基本概念

2.1模糊数学

以数学手段分析与处理模糊性事物的学科。模糊数学是研究和处理模糊性现象的数额学。所谓模糊性,意指客观事物的差异在中介过度时所呈现的“亦此亦彼”的特性。模糊数学中,归属度是建立模糊集合的基础,归属函数是描述模糊性的关键。

2.2模糊集合(Fuzzy Set)

表示界限或边界不明确的特定集合,以特征函数来表示元素与集合间之归属程度,一般特征函数又称为归属函数(membership-function),其值界于﹝0,1﹞区间。在自然和社会现象中,绝对性、两极化的突变是不存在的,两极化间的差异往往要经由一个“中介过度形式”來表征,即具“亦此亦彼”性

。需要定义集合与集合之间的基本运算和关系,以便日后将模糊集合应用于各种领域之中,所不同的只是因為,绝大多数的事物是无法以明确的二分逻辑法加以切割的。

2.3模糊关系

在人们的实际生活与工作中,模糊性是无法避免的,现实世界存在元素间的关系,并非是简单的“是与否”或“有与无”的关系,而是有着不同程度的关系存在。例如某家庭子女与父母外貌得相似关系,就很难以绝对地“像”与“不像”来表明或定义,只能评论他们“相像”的程度。

3.模糊理论的应用

模糊理论一产生就在数学领域本身及其他领域得到了广泛的应用到世纪年代,已经形成了具有完整体系和鲜明特点的“模糊拓扑学”,框架日趋成熟的“模糊随机数学”,“模糊分析学”,“模糊逻辑理论”以及专著虽少但相关论文却非常丰富的“ 模糊代数理论”等。这些理论的形成与发展极大地丰富和完善了模糊数学的内容。模糊逻辑是模糊理论中的重要研究方向,它的最大成功是其在控制论中的应用。但是,模糊逻辑在理论上的研究还远远不够深人,也没有形成自身独有的理论体系,其研究的思路基本上还是沿着二值逻辑的体系来展开的,所以难免要受到一些学者的怀疑或疑惑。展开这类讨论无论是对模糊逻辑还是对模糊数学本身的发展都是非常有益的,这是模糊逻辑强大生命力的表现,同时也进一步促进这一领域学者从理论上更深人系统地研究相关的论题。模糊技术已渗透到自然科学、社会科学及工程技术的几乎全部领域,像电力、电子、核物理、石油、化工、机械、冶金、能源、材料、交通、医疗、卫生、林业、农业、地质、地理、地震、建筑、水文、气象、环保、管理、法律、教育、心理、体育、军事和历史等领域,都有其成功应用的范例。模糊技术将成为21世纪的核心技术。

4.模糊聚类分析

在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。

4.1模糊聚类分析的一般步骤

第一步:数据标准化

模糊聚类分析的理论37_模糊聚类分析

A.数据矩阵

设论域U?{x1,x2,?,xn}为被分类对象,每个对象又有m个指标表示其性状,即

xi?{xi1,xi2,?,xim} (i?1,2?,n,, 于是,得到原始数据矩阵为

?x11

?x21

?

????xn1

xx?xn2

?

1222

??

??xm2

?。 ???xnm?

m1

x

其中xnm表示第n个分类对象的第m个指标的原始数据。

B.数据标准化

在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

?? xik

xik?sk1

n

ikk

(i?1,2?,n,k?;

?1,2m,

其中 xk?

x,

?n

i?1

sk?

经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但

?还不一定在区间[0,1]上。 是,再用得到的xik

② 平移·极差变换

??? xik

?xi?k?minx{

1?i?n

ik

}

??}maxx{ik

1?i?n

1?i?n

?n{mxiik

,(k?1,2,?,m)

}

???1,而且也消除了量纲的影响。 显然有0?xik

③ 对数变换

??lgxik (i?1,2 xik?,n,k?;

?1,2m,

取对数以缩小变量间的数量级。

第二步:标定(建立模糊相似矩阵)

设论域U?{x1,x2,?,xn},xi?{xi1,xi2,?,xim},依照传统聚类方法确定相似系数,建立模糊相似矩阵,xi与xj的相似程度rij?R(xi,xj)。确定rij?R(xi,xj)的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。

A.相似系数法

① 夹角余弦法

m

rij?

?x

ik

?xjk

② 最大最小法

m

rij?

?(x

k?1m

ik

?xjk)

ik

?(x

k?1

?xjk)

③ 算术平均最小法

m

rij?

2?(xik?xjk)

k?1m

?(x

k?1

ik

?xjk)

④ 几何平均最小法

m

rij?

2?(xik?x

k?1m

jk

)

?

k?1

以上3种方法中要求xij?0,否则也要做适当变换。 ⑤ 数量积法

??

rij??1

?M?

1,

m

i?j,i?j,

?

k?1

xik?xjk,

其中 M?max?(xik?x

i?j

k?1

m

jk

。)

⑥ 相关系数法

m

rij?

?

xik?xixjk?xj

其中 xi?

1m

m

?x,x

ik

k?1

j

?

1m

m

?x。

jk

k?1

⑦ 指数相似系数法

3(x?x)

rij??exp[?ik2jk],

mk?14sk

1

m

2

其中 sk?

1

n

ik

?(xn

i?1

?ik)

2

而 k?

1

n

ik

x ?n

i?1

k?(1,2,?,m)。

B.距离法

① 直接距离法

) rij?1?cd(xi,xj,

其中c为适当选取的参数,使得0?rij?1,d(xi,xj)表示他们之间的距离。经常用的距离有 ● 海明距离

m

d(x,xj)?i● 欧几里得距离

?

k?1

x?ik

。jk

,xj)?

d(xi

m

● 切比雪夫距离

,xj)?? d(xi

k?1

x?。ikjk

② 倒数距离法

1,??

rij??M

,

?d(x,x)

ij?

i?j,i?j,

其中M为适当选取的参数,使得0?rij?1。 ③ 指数距离法

(ix,j。) rij?exp?[dx

第三步:聚类(求动态聚类图)

A.基于模糊等价矩阵聚类方法

① 传递闭包法

根据标定所得的模糊矩阵R还要将其改造称模糊等价矩阵R*。用二次方法求R的传递闭包,即t(R)=R*。再让?由大变小,就可形成动态聚类图。 ② 布尔矩阵法[10]

布尔矩阵法的理论依据是下面的定理:

定理2.2.1 设R是U?{x1,x2,?,xn}上的一个相似的布尔矩阵,则R具有传递性(当R是等价布尔矩阵时)?矩阵R在任一排列下的矩阵都没有形如

?1

??1

1??11??10??01?,,,???????的特殊子矩阵。 0??01??11??11?

布尔矩阵法的具体步骤如下: ① 求模糊相似矩阵的??截矩阵R?.

② 若R?按定理2.2.1判定为等价的,则由R?可得U在?水平上的分类,若R?判定为不等价,则R?在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的R?*为等价矩阵。因此,由R?*可得?水平上的分类

B.直接聚类法

所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包t(R),也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:

① 取?1?1(最大值),对每个xi作相似类[xi]R,且 [xi]R={xj|rij?1},

即将满足rij?1的xi与xj放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现

[xi]R?{xi,xk,[}xi]R?{xj,xk},[xi]?[xj]??.

此时只要将有公共元素的相似类合并,即可得?1?1水平上的等价分类。 ② 取?2为次大值,从R中直接找出相似度为?2的元素对(xi,xj)(即

rij??2

),将对应于?1?1的等价分类中xi所在的类与xj所在的类合并,将所有的

这些情况合并后,即得到对应于?2的等价分类。

③ 取?3为第三大值,从R中直接找出相似度为?3的元素对(xi,xj)(即

rij??3),将对应于?2

的等价分类中xi所在的类与xj所在的类合并,将所有的这

些情况合并后,即得到对应于?3的等价分类。 ④ 以此类推,直到合并到U成为一类为止。

4.2最佳阈值?的确定

在模糊聚类分析中对于各个不同的??[0,1],可得到不同的分类,许多实际问题需要选择某个阈值?,确定样本的一个具体分类,这就提出了如何确定阈值

?的问题。一般有以下两个方法:

① 按实际需要,在动态聚类图中,调整?的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值?,从而得出在?水平上的等价分类 ② 用F统计量确定?最佳值。[11]

设论域U?{x1,x2,?,xn}为样本空间(样本总数为n),而每个样本xi有m个特征:xi?{xi1,xi2,?,xim},(i?1,2,?,n)。于是得到原始数据矩阵,如下表所示,其中xk?

1

n

ik

?x

n

i?1

(k?1,2,?,m),称为总体样本的中心向量。

模糊聚类分析的理论37_模糊聚类分析

设对应于?值的分类数为r,第j类的样本数为nj,第j类的样本记为:

(j)(j)(j)

第j类的聚类中心为向量x1,x2,?,xnj,

(j)

?(1

(j)

,12,

?,m)

(j)(j)

,其中k(j)为第

k

个特征的平均值,即

(j)

k

作F统计量

?

1nj

nj

?x

i?1

j(ik

),(k?1,2,?,m),

r

?n

F?

j?1r

nj

j

xi

(j)

?(j)

(r?1)

(j)

??

j?1i?1

?(n?r)

其中 (j)

??

2

为(j)与间的距离,xi(j)?(j)为第j类中第i个样本x(j)与其中心(j)间的距离。称为F统计量,它是遵从自由度为r?1,n?r的F分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,F值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。

5.基于模糊聚类分析的多属性决策方法的实际应用

聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。

5.1雨量站问题

5.1.1问题的提出

某地区设置有11个雨量站,其分布图见图1,10年来各雨量站所测得的年降雨量列入表1中。现因经费问题,希望撤销几个雨量站,问撤销那些雨量站,而不会太多的减少降雨信息?

图1 雨量站分布图

5.1.2问题的分析

应该撤销那些雨量站,涉及雨量站的分布,地形,地貌,人员,设备等众多因素。我们仅考虑尽可能地减少降雨信息问题。一个自然的想法是就10年来各雨量站所获得的降雨信息之间的相似性,对全部雨量站进行分类,撤去“同类”(所获降雨信息十分相似)的雨量站中“多余”的站。 问题求解 假设为使问题简化,特作如下假设

① 每个观测站具有同等规模及仪器设备; ② 每个观测站的经费开支均等; 具有相同的被裁可能性。

分析:对上述撤销观测站的问题用基于模糊等价矩阵的模糊聚类方法进行分析,原始数据如上。

5.1.3问题的解决

求解步骤:

A、数据的收集

原始数据如表1所示。

B、建立模糊相似矩阵

利用相关系数法,构造模糊相似关系矩阵(r??)11?11,其中

n

?|(x

rij=

k?1nk?1

ik

?xi)||(xjk?xj)|

n2

2

1

[?(xik?xi)??(xjk?xj)]2

k?1

其中xi=

1

110

n

10

?x,i=1,2,?,11。

ik

k?1

xj=

x,j=1,2,?,11。 ?n

jk

k?1

取i?2,j?1,代入公式得r21=0.839,由于运算量巨大用C语言编程计算出其余数值,得模糊相似关系矩阵(r??)11?11,具体程序如下 #include<stdio.h> #include<math.h>

double r[11][11]; double x[11]; void main()

{ int i,j,k; double fenzi=0,fenmu1=0,fenmu2=0,fenmu=0;

int year[10][11]={276,324,159,413,

for(i=0;i<11;i++) { for(k=0;k<10;k++) }

for(i=0;i<11;i++) {for(j=0;j<11;j++) { for(k=0;k<10;k++)

292 ,258,311,303,175,243,320,

251 ,287,349,344,310,454,285,451,402,307,470,

192 ,433,290,563,479,502,221,220,320,411,232, 246 ,232,243,281,267,310,273,315,285,327,352, 291,311,502,388 ,330,410,352,267,603,290,292, 466 ,158,224,178,164,203,502,320,240,278,350, 258,327,432 ,401,361,381,301,413,402,199,421, 453,365,357 ,452,384,420,482,228,360,316,252, 158 ,271,410,308,283,410,201,179,430,342,185, 324,406,235,520 ,442,520,358,343,251,282,371};

{ x[i]=x[i]+year[k][i];}

x[i]=x[i]/10;

{ fenzi=fenzi+fabs((year[k][i]-x[i])*(year[k][j]-x[j])); fenmu1=fenmu1+(year[k][i]-x[i])*(year[k][i]-x[i]);

fenmu2=fenmu2+(year[k][j]-x[j])*(year[k][j]-x[j]);

fenmu=sqrt(fenmu1)*sqrt(fenmu2); }

fenmu=fenmu1=fenmu2=fenzi=0; }}

for(i=0;i<11;i++) getchar(); }

得到模糊相似矩阵R

1.000 0.839 0.528 0.844 0.828 0.702 0.995 0.671 0.431 0.573 0.712 0.839 1.000 0.542 0.996 0.989 0.899 0.855 0.510 0.475 0.617 0.572 0.528 0.542 1.000 0.562 0.585 0.697 0.571 0.551 0.962 0.642 0.568 0.844 0.996 0.562 1.000 0.992 0.908 0.861 0.542 0.499 0.639 0.607 0.828 0.989 0.585 0.992 1.000 0.922 0.843 0.526 0.512 0.686 0.584 0.702 0.899 0.697 0.908 0.922 1.000 0.726 0.455 0.667 0.596 0.511 0.995 0.855 0.571 0.861 0.843 0.726 1.000 0.676 0.489 0.587 0.719 0.671 0.510 0.551 0.542 0.526 0.455 0.676 1.000 0.467 0.678 0.994 0.431 0.475 0.962 0.499 0.512 0.667 0.489 0.467 1.000 0.487 0.485 0.573 0.617 0.642 0.639 0.686 0.596 0.587 0.678 0.487 1.000 0.688 0.712 0.572 0.568 0.607 0.584 0.511 0.719 0.994 0.485 0.688 1.000

对这个模糊相似矩阵用平方法作传递闭包运算,求R2???R4:R4 即

t(R)?R?R

4

*

r[i][j]=fenzi/fenmu;

{ for(j=0;j<11;j++) {printf("%6.3f",r[i][j]);}

printf("\n");}

C、聚类

注:R是对称矩阵,故只写出它的下三角矩阵

模糊聚类分析的理论37_模糊聚类分析

?1.000?

0.861?

?0.697?

?0.861?0.861?*

R??0.861

?0.994?

?0.719?

0.697?

?0.688?

?0.719

10.6970.9960.9960.9950.8610.7190.6970.6880.719

10.6970.6970.6970.6970.6970.9620.6880.697

10.9920.9220.8610.7190.6970.6880.719

10.9220.8610.7190.6970.6880.719

10.8610.7190.6970.6880.719

10.7190.6970.6880.719

10.6760.6880.688

10.6970.697

10.688

????????????????1?

取?=0.996,则

?1?????????????????

1

111

1

1

1

1

1

1

1

1

1

????????? ???????1?

R0.996

*

x2,x4,x5在置信水平为0.996的阈值?下相似度为1,故x2,x4,x5同属一类,所以

此时可以将观测站分为9类{x2,x4,x5},{x1},{x3},{x6},{x7},{x8},{x9},{x10},{x11}。

降低置信水平?,对不同的?作同样分析,得到:

?=0.995时,可分为8类,即{x2,x4,x5,x6},{x1},{x3},{x7},{x8},{x9},

{x10},{x11}。

?=0.994时,可分为7类{x2,x4,x5,x6},{x1,x7},{x3} ,{x8},{x9},

{x10},{x11}。

?=0.962时,可分为6类{x2,x4,x5,x6},{x1,x7},{x3,x9} ,{x8},

{x10},{x11}。

?=0.719时,可分为5类{x2,x4,{x3,,{x8,

x5,x6},{x1,x7},x9} x11},{x10}。

四 : 模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文

聚类分析是数理统计中的一种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。

模糊聚类分析_模糊聚类分析 -模糊聚类分析

模糊聚类分析_模糊聚类分析 -正文

涉及事物之间的模糊界限时按一定要求对事物进行分类的数学方法。聚类分析是数理统计中的1种多元分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。事物之间的界限,有些是确切的,有些则是模糊的。例如人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。模糊聚类分析有2种基本方法:系统聚类法和逐步聚类法。
系统聚类法 系统聚类法是基于模糊等价关系的模糊聚类分析法。在经典的聚类分析方法中可用经典等价关系对样本集X进行聚类。设RX上的经典等价关系。对X中的2个元素xy,若xRy或(x,y)∈R,则将xy并为1类,否则xy不属于同1类。
相应地,可用X上的模糊等价关系对样本集X进行模糊聚类。设X上的模糊等价关系,模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析的隶属函数。对于任何α∈【0,1】,定义α截关系

模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析

SαX上的经典等价关系。根据Sα得到X的1种聚类,称为在α水平上的聚类。即对于X中的任意2个元素xy,若模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析,则xy属于同1类;否则xy不属于同1类。
应用这种方法,分类的结果与α的取值大小有关。α取值越大,分的类数越多。α小到某一值时,X中的所有样本归并为1类。这种方法的优点在于可按实际需要选取α的值,以便得到恰当的分类。
系统聚类法的步骤如下:
①用数字描述样本的特征。设被聚类的样本集为X={x1,…,xn}。每个样本均有p种特征,记作xi=(xi1,…,xip);i=1,2,…,nxip表示描述样本xi的第p个特征的数。  ②规定样本之间的相似系数rij(0≤rij≤1;i,j=1,…,n)。rij描述样本xixj之间的差异或相似的程度。rij越接近于1,表明样本xixj之间的差异越小;rij越接近于0,表明xixj之间的差异越大。rij可用主观评定或集体评分的方法规定,也可用公式计算,如采用夹角余弦法、最小最大法、算术平均最小法等。
因为rii=1(xi与自身没有差异),rijrji(xixj之间的差异等同于xjxi之间的差异),所以由rij(i,j=1,…,n)可得X上的模糊相似关系:

模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析

一般,R不具备可传递性,因而R不一定是X上的模糊等价关系。
③运用合成运算R2R?R(或R4R2?R2等)求出最接近相似关系R的模糊等价关系SR2(或R4等)。若R已是模糊等价关系,则取SR
④选取适当水平α(0≤α≤1),得到X的1种聚类。
逐步聚类法 逐步聚类法是1种基于模糊划分的模糊聚类分析法。它是预先确定好待分类的样本应分成几类,然后按最优化原则进行再分类,经多次迭代直到分类比较合理为止。
在分类过程中可认为某个样本以某一隶属度隶属于某1类,又以另一隶属度隶属于另1类。这样,样本就不是明确地属于或不属于某1类。若样本集有n个样本要分成c类,则它的模糊划分矩阵为

模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析

此c×n模糊划分矩阵有下列特性:①uij∈【0,1】;i=1,…,c;j=1,…,n。②模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析即每一样本属于各类的隶属度之和为1。③模糊聚类分析:模糊聚类分析-模糊聚类分析,模糊聚类分析-正文_模糊聚类分析即每1类模糊子集都不是空集。
模糊划分矩阵有无穷多个,这种模糊划分矩阵的全体称为模糊划分空间。最优分类的标准是样本与聚类中心的距离平方和最小。因为1个样本是按不同的隶属度属于各类的,所以应同时考虑它与每1类的聚类中心的距离。逐步聚类法需要反复迭代计算,计算工作量很大,要在电子计算机上进行。算出最优模糊划分矩阵后,还必须求得相应的常规划分。此时可将得到的聚类中心存在计算机中,将样本重新逐个输入,去与每个聚类中心进行比较,与哪个聚类中心最接近就属于哪1类。
这种方法要预先知道分类数,如分类数不合理,就重新计算。这就不如运用基于模糊等价关系的系统聚类法,但可以得到聚类中心,即各类模式样本,而这往往正是所要求的。因此可用模糊等价关系所得结果作为初始分类,再通过反复迭代法求得更好的结果。

模糊聚类分析_模糊聚类分析 -配图

模糊聚类分析_模糊聚类分析 -相关连接

本文标题:模糊聚类分析-模糊聚类分析的应用
本文地址: http://www.61k.com/1125984.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1