61阅读

weka-Weka简介

发布时间:2017-08-15 所属栏目:weka教程

一 : Weka简介

Weka简介(http://www.china-pub.com/computers/common/info.asp?id=29304)

     WEKA的全名是怀卡托智能分析环境(Walkato Environment for Knowledge Analysis),WEKA的开发者来自新西兰,而新西兰有一种鸟名字叫做weka,便是weka图标上的那只。(www.61k.com]

     WEKA是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括预处理、分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。

     2005年8月,在第十一届ACM SIGKDD的会议上,怀卡托大学的Weka小组获得了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现金最完备的数据挖掘工具之一。Weka每月的下载次数都已破万。

   --摘自(http://www.china-pub.com/computers/common/info.asp?id=29304)

数据格式

     WEKA的数据是.arff(Attribute-Relation File Format)格式的,是ASCII文本文件。相当于一张二维的表格,@attribute中第二列是表中各项的属性,第二列指定了表格该项的类型,一般有五种类型:{NORMINAL, NUMBERIC, STRING, DATE, RELATION}。下面是一个例子:

@RELATION iris

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}

@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-versicolor
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-virginica
5.4,3.9,1.7,0.4,Iris-setosa

其中:

1. @RELATION 我自己的理解是相当于给个名字,这二个字符串包含空格,必须加上引号,英文符号中的单引和双引都可;

2. @ATTRIBUTE 中第二列是表中各项的属性,第二列指定了表格该项的类型,一般有五种类型:{NORMINAL, NUMBERIC, STRING, DATE, RELATION};
3. @DATA标记后面写的都是数据,每一行都是一组数据。

     在WEKA中给用户提供了从数据库和Excel导出CSV文件转换成ARFF文件的方法,如果不嫌麻烦写个写文件的函数也一样。

稀疏数据格式

     稀疏数据格式Sparse ARFF和ARFF文件很像,是WEKA中提供的为了有大量零值数据格式。稀疏数据格式一般是<index><space><value>

如上面例子中的

5.1,3.5,1.4,0.2,Iris-setosa
可以写成:
15.1,23.5,31.4,40.2,5Iris-setosa

文本数据格式

     文本数据格式在数据格式中并没有,但是在WEKA的数据样例中有这样的例子。当你把文本用TextDirectoryLoader将文本集合转化成数据的时候就会形成这样的格式。下面是一个例子:

@relation D__temp_weka_TextDirectoryLoader

@attribute text string
@attribute @@class@@ {Libya,'Wall Street'}

@data
'Libyan fighters have raised the new government',Libya
'A special briefing by senior U.S. State Department Officials on Secretary Hillary Rodham Clinton\'s visit to Libya:',Libya
'Occupy Wall Street plans to demand probe into incident involving cop; Group also wants charges against protesters dropped','Wall Street'
'As Occupy Wall Street enters its fourth week, TIME takes a look at other sociopolitical movements in U.S. history','Wall Street'
'As Occupy Wall Street enters its fourth week, TIME takes a look at other sociopolitical movements in U.S. history','Wall Street'
'As Occupy Wall Street enters its fourth week, TIME takes a look at other sociopolitical movements in U.S. history','Wall Street'

   使用TextDirectoryLoader转化文本,使用命令行:

java weka.core.converters.TextDirectoryLoader -dir D:/temp/weka/TextDirectoryLoader/ > D:/temp/weka/data.arff

     路径自己定义,记住不要漏掉符号>在文本文件夹路径和输出文件路径之间。

     其中文件夹路径下面有两个文件夹:Libya和Wall Street。这两个文件夹下面分别有属于各自类别的文本。

扩展:weka软件简介 / weka教程 / weka下载

二 : WEKA

Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。

WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代码可通过和


4.关联规则(购物篮分析)
注意:目前,WEKA的关联规则分析功能仅能用来作示范,不宜用来挖掘大型数据集。

我们打算对前面的“bank-data”数据作关联规则的分析。用“Explorer”打开“bank-data-final.arff”后,切换到“Associate”选项卡。默认关联规则分析是用APRIORI算法,我们就用这个算法,但是点“Choose”右边的文本框修改默认的参数,弹出的窗口中点“More”可以看到各参数的说明。

背景知识
首先我们来温习一下Apriori的有关知识。对于一条关联规则L->R,我们常用支持度(Support)和置信度(Confidence)来衡量它的重要性。规则的支持度是用来估计在1个购物篮中同时观察到L和R的概率P(L,R),而规则的置信度是估计购物栏中出现了L时也出会现R的条件概率P(R|L)。关联规则的目标一般是产生支持度和置信度都较高的规则。
有几个类似的度量代替置信度来衡量规则的关联程度,它们分别是
Lift(提升度?):P(L,R)/(P(L)P(R))
Lift=1时表示L和R独立。这个数越大,越表明L和R存在在1个购物篮中不是偶然现象。
Leverage(不知道怎么翻译):P(L,R)-P(L)P(R)
它和Lift的含义差不多。Leverage=0时L和R独立,Leverage越大L和R的关系越密切。
conviction(更不知道译了):P(L)P(!R)/P(L,!R)(!R表示R没有发生)
Conviction也是用来衡量L和R的独立性。从它和lift的关系(对R取反,代入Lift公式后求倒数)可以看出,我们也希望这个值越大越好。
值得注意的是,用Lift和Leverage作标准时,L和R是对称的,Confidence和Conviction则不然。

参数设置
现在我们计划挖掘出支持度在10%到100%之间,并且lift值超过1.5且lift值排在前100位的那些关联规则。我们把“lowerBoundMinSupport”和“upperBoundMinSupport”分别设为0.1和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认就可以。“OK”之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果。

下面是挖掘出来的lift排前5的规则。
Bestrulesfound:
1.age=52_maxsave_act=YEScurrent_act=YES113==>income=43759_max61conf:(0.54)<lift:(4.05)>lev:(0.08)[45]conv:(1.85)
2.income=43759_max80==>age=52_maxsave_act=YEScurrent_act=YES61conf:(0.76)&(www.61k.com]lt;lift:(4.05)>lev:(0.08)[45]conv:(3.25)
3.income=43759_maxcurrent_act=YES63==>age=52_maxsave_act=YES61conf:(0.97)<lift:(3.85)>lev:(0.08)[45]conv:(15.72)
4.age=52_maxsave_act=YES151==>income=43759_maxcurrent_act=YES61conf:(0.4)<lift:(3.85)>lev:(0.08)[45]conv:(1.49)
5.age=52_maxsave_act=YES151==>income=43759_max76conf:(0.5)<lift:(3.77)>lev:(0.09)[55]conv:(1.72)
对于挖掘出的每条规则,WEKA列出了它们关联程度的四项指标。

命令行方式
我们也可以利用命令行来完成挖掘任务,在“SimlpeCLI”模块中输入如下格式的命令:
javaweka.associations.Apriorioptions-tdirectory-path"bank-data-final.arff
就可以完成Apriori算法。注意,“-t”参数后的文件路径中不能含有空格。
在前面我们使用的option为
-N100-T1-C1.5-D0.05-U1.0-M0.1-S-1.0命令行中使用这些参数得到的结果和前面利用GUI得到的一样。
我们还可以加上“-I”参数,得到不同项数的频繁项集。我用的命令如下:
javaweka.associations.Apriori-N100-T1-C1.5-D0.05-U1.0-M0.1-S-1.0-I-td:"weka"bank-data-final.arff
挖掘结果在上方显示,应是这个文件的样子。

----整理自

5.分类与回归

背景知识
WEKA把分类(Classification)和回归(Regression)都放在“Classify”选项卡中,这是有原因的。
在这2个任务中,都有1个目标属性(输出变量)。我们希望根据1个样本(WEKA中称作实例)的一组特征(输入变量),对目标进行预测。为了实现这一目的,我们需要有1个训练数据集,这个数据集中每个实例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们即可新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。
在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自分类任务的“类”。一般的,若Class属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。

选择算法
这一节中,我们使用C4.5决策树算法对bank-data建立起分类模型。
我们来看原来的“bank-data.csv”文件。“ID”属性肯定是不需要的。由于C4.5算法可以处理数值型的属性,我们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此,我们还是把“Children”属性转换成分类型的2个值“YES”和“NO”。另外,我们的训练集仅取原来数据集实例的一半;而从另外一半中抽出若干条作为待预测的实例,它们的“pep”属性都设为缺失值。经过了这些处理的训练集数据在这里下载;待预测集数据在这里下载。

我们用“Explorer”打开训练集“bank.arff”,观察一下它是不是按照前面的要求处理好了。切换到“Classify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在1个树型框里。3.5版的WEKA中,树型框下方有1个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型(即只有2个类的分类型)和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binaryattributes”“Numericattributes”和“Binaryclass”。点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能用。选择“trees”下的“J48”,这就是我们需要的C4.5算法,还好它没有变红。
点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。
现在来看左中的“TestOption”。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,我们有必要采用10折交叉验证(10-foldcrossvalidation)来选择和评估模型。若不明白交叉验证的含义可以Google一下。

建模结果
OK,选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成决策树模型。很快,用文本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的“Classifieroutput”中。同时左下的“Resultslist”出现了1个项目显示刚才的时间和算法名称。如果换1个模型或者换个参数,重新“Start”一次,则“Resultslist”又会多出一项。

我们看到“J48”算法交叉验证的结果之一为
correctlyClassifiedInstances20668.6667%
也就是说这个模型的准确度只有69%左右。也许我们需要对原属性进行处理,或者修改算法的参数来提高准确度。但这里我们不管它,继续用这个模型。

右键点击“Resultslist”刚才出现的那一项,弹出菜单中选择“Visualizetree”,新窗口里可以看到图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fittoscreen”,可以把这个树看清楚些。看完后截图或者关掉:P

这里我们解释一下“ConfusionMatrix”的含义。
===ConfusionMatrix===
ab<--classifiedas
7464|a=YES
30132|b=NO
这个矩阵是说,原本“pep”是“YES”的实例,有7四个被正确的预测为“YES”,有6四个错误的预测成了“NO”;原本“pep”是“NO”的实例,有三十个被错误的预测为“YES”,有13两个正确的预测成了“NO”。74+64+30+132=300是实例总数,而(74+132)/300=0.68667正好是正确分类的实例所占比例。这个矩阵对角线上的数字越大,说明预测得越好。

模型应用
现在我们要用生成的模型对那些待预测的数据集进行预测了。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。
在“TestOpion”中选择“Suppliedtestset”,并且“Set”成你要应用模型的数据集,这里是“bank-new.arff”文件。
现在,右键点击“Resultlist”中刚产生的那一项,选择“Re-evaluatemodeloncurrenttestset”。右边显示结果的区域中会增加一些内容,告诉你该模型应用在这个数据集上表现将如何。如果你的Class属性都是些缺失值,那这些内容是无意义的,我们关注的是模型在新数据集上的预测值。
现在点击右键菜单中的“Visualizeclassifiererrors”,将弹出1个新窗口显示一些有关预测误差的散点图。点击这个新窗口中的“Save”按钮,保存1个Arff文件。打开这个文件可以看到在倒数第二个位置多了1个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值。

使用命令行(推荐)
虽然使用图形界面查看结果和设置参数很方便,但是最直接最灵活的建模及应用的办法仍是使用命令行。
打开“SimpleCLI”模块,像上面那样使用“J48”算法的命令格式为:
javaweka.classifiers.trees.J48-C0.25-M2-tdirectory-path"bank.arff-ddirectory-path"bank.model
其中参数“-C0.25”和“-M2”是和图形界面中所设的一样的。“-t”后面跟着的是训练数据集的完整路径(包括目录和文件名),“-d”后面跟着的是保存模型的完整路径。注意!这里我们可以把模型保存下来。
输入上述命令后,所得到树模型和误差分析会在“SimpleCLI”上方显示,可以复制下来保存在文本文件里。误差是把模型应用到训练集上给出的。
把这个模型应用到“bank-new.arff”所用命令的格式为:
javaweka.classifiers.trees.J48-p9-ldirectory-path"bank.model-Tdirectory-path"bank-new.arff
其中“-p9”说的是模型中的待预测属性的真实值存在第九个(也就是“pep”)属性中,这里它们全部未知因此全部用缺失值代替。“-l”后面是模型的完整路径。“-T”后面是待预测数据集的完整路径。
输入上述命令后,在“SimpleCLI”上方会有这样一些结果:
0YES0.75?
1NO0.7272727272727273?
2YES0.95?
3YES0.8813559322033898?
4NO0.8421052631578947?
...
这里的第一列就是我们提到过的“Instance_number”,第二列就是刚才的“predictedpep”,第四列则是“bank-new.arff”中原来的“pep”值(这里都是“?”缺失值)。第三列对预测结果的置信度(confidence)。比如说对于实例0,我们有75%的把握说它的“pep”的值会是“YES”,对实例4我们有84.2%的把握说它的“pep”值会是“NO”。
我们看到,使用命令行至少有2个好处。1个是可以把模型保存下来,这样有新的待预测数据出现时,不用每次重新建模,直接应用保存好的模型就可以。另1个是对预测结果给出了置信度,我们可以有选择的采纳预测结果,例如,只考虑那些置信度在85%以上的结果。

----整理自



6.聚类分析

原理与实现
聚类分析中的“类”(cluster)和前面分类的“类”(class)是不同的,对cluster更加准确的翻译应该是“簇”。聚类的任务是把所有的实例分配到若干的簇,使得同1个簇的实例聚集在1个簇中心的周围,它们之间距离的比较近;而不同簇实例之间的距离比较远。对于由数值型属性刻画的实例来说,这个距离通常指欧氏距离。
现在我们对前面的“bankdata”作聚类分析,使用最常见的K均值(K-means)算法。下面我们简单描述一下K均值聚类的步骤。
K均值算法首先随机的指定K个簇中心。然后:1)将每个实例分配到距它最近的簇中心,得到K个簇;2)计分别计算各簇中所有实例的均值,把它们作为各簇新的簇中心。重复1)和2),直到K个簇中心的位置都固定,簇的分配也固定。

上述K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换,而且WEKA会自动对数值型的数据作标准化。因此,对于原始数据“bank-data.csv”,我们所做的预处理只是删去属性“id”,保存为ARFF格式后,修改属性“children”为分类型。这样得到的数据文件为“bank.arff”,含600条实例。

用“Explorer”打开刚才得到的“bank.arff”,并切换到“Cluster”。点“Choose”按钮选择“SimpleKMeans”,这是WEKA中实现K均值的算法。点击旁边的文本框,修改“numClusters”为6,说明我们希望把这600条实例聚成六类,即K=6。下面的“seed”参数是要设置1个随机种子,依此产生1个随机数,用来得到K均值算法中第一次给出的K个簇中心的位置。我们不妨暂时让它就为10。
选中“ClusterMode”的“Usetrainingset”,点击“Start”按钮,观察右边“Clustereroutput”给出的聚类结果。也可以在左下角“Resultlist”中这次产生的结果上点右键,“Viewinseparatewindow”在新窗口中浏览结果。

结果解释
首先我们注意到结果中有这么一行:
Withinclustersumofsquarederrors:1604.7416693522332
这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。也许你得到的数值会不一样;实际上如果把“seed”参数改一下,得到的这个数值就可能会不一样。我们应该多尝试几个seed,并采纳这个数值最小的那个结果。例如我让“seed”取100,就得到
Withinclustersumofsquarederrors:1555.6241507629218
我该取后面这个。当然再尝试几个seed,这个数值可能会更小。

接下来“Clustercentroids:”之后列出了各个簇中心的位置。对于数值型的属性,簇中心就是它的均值(Mean);分类型的就是它的众数(Mode),也就是说这个属性上取值为众数值的实例最多。对于数值型的属性,还给出了它在各个簇里的标准差(StdDevs)。

最后的“clusteredInstances”是各个簇中实例的数目及百分比。

为了观察可视化的聚类结果,我们在左下方“Resultlist”列出的结果上右击,点“Visualizeclusterassignments”。弹出的窗口给出了各实例的散点图。最上方的2个框是选择横坐标和纵坐标,第二行的“color”是散点图着色的依据,默认是根据不同的簇“Cluster”给实例标上不同的颜色。
可以在这里点“Save”把聚类结果保存成ARFF文件。在这个新的ARFF文件中,“instance_number”属性表示某实例的编号,“Cluster”属性表示聚类算法给出的该实例所在的簇。

三 : WEKA配置

一、WEKA的安装

在WEKA的安装文件中有weka-3-5-7.exe和weka-3-5-7jre.exe,这2个软件我们安装1个就可以,它们的区别是weka-3-5-6.exe只安装WEKA,而weka-3-5-7jre.exe是将WEKA和JRE一起安装,所以在安装之前我们应该首先检查一下我们的电脑中是否安装了JRE,如果本机中已经安装了JRE,那么我们就选择weka-3-5-6.exe安装程序,如果没有安装JRE,我们就选择weka-3-5-7jre.exe安装程序,下面我们来分别介绍这2种安装方法。

1、 weka-3-5-7.exe

若本机中已经安装了JRE,那么我们就选择安装此文件,双击此文件开始进行安装,在出现的窗口中点击Next

然后点击I Agree

再点击Next

此时出现如下窗口,Browse左边的区域是WEKA的默认安装路径,我们可以点击Browse选择我们想要安装WEKA的位置,然后点击窗口下方的NEXT,也可以不点击Browse直接将WEKA安装到默认的目录下,即直接点击窗口下方的NEXT,

在新出现的窗口中点击Install开始安装,

等待几秒种后点击Next

在新窗口中会有1个StartWeka单选框(默认情况下是选中的),如果我们想安装完成后就启动WEKA,那么我们就直接点击新窗口下方的FINISH完成安装,如果我们不想立即启动WEKA可以单击StartWeka前面的单选框,然后点击FINISH就可以完成安装,此时WEKA已经安装到我们的电脑中。

2、weka-3-5-7jre.exe

若本机中没有安装JRE,我们选择安装此文件,双击此文件开始进行安装,在出现的窗口中点击Next

然后点击I Agree

再点击Next

此时出现如下窗口

Browse左边的区域是默认安装WEKA的地方,我们可以点击Browse选择我们想将WEKA安装的位置,然后点击窗口下方的NEXT,也可以不点击Browse直接将WEKA安装到默认的目录下,即直接点击窗口下方的NEXT,

在新出现的窗口中点击Install开始安装,

等待几秒种后在新出现的窗口中直接点击下方的接受(此时进行的是典型安装模式),

然后等待几分钟,此时正在安装的是J2SE RuntimeEnvironment,待安装完毕我们点击完成,

然后在新出现的窗口中点击NEXT,[www.61k.com)

在新窗口中会有1个StartWeka单选框(默认情况下是选中的),如果我们想安装完成后就启动WEKA,那么我们就直接点击新窗口下方的FINISH完成安装,如果我们不想立即启动WEKA可以单击Start Weka前面的单选框,然后点击FINISH就可以完成安装。

此时WEKA和JRE均已安装到我们的电脑中。

3、配置环境变量

以上2种不同的方式安装完成后我们都还要配置环境变量,右键单击桌面上的我的电脑,点击属性,

在新出现的系统属性窗口中点击高级,

然后点击窗口下方的环境变量,此时会出现1个环境变量窗口,

该窗口有2个区域,上面的是Administrator的用户变量,下面的是系统变量,我们需要配置的是下面的这个区域中的变量。找到下面系统变量窗口中的PATH变量并双击,在变量值的区域中的最前面添上我们的JRE的安装路径(注意要到BIN文件)。

例如如果我们安装之际选择的是默认的安装目录,那么就添加如下内容:C:\ProgramFiles\Java\jre1.5.0_14\bin;

若没有PATH变量可以点击窗口下方的新建按钮添加此属性,

在变量名中输入PATH,在变量值中输入C:\ProgramFiles\Java\jre1.5.0_14\bin;,然后点击确定按钮)。

然后点击确定

点击确定

点击确定就可以,此时环境变量配置完成。

二、WEKA的启动

在开始程序中找到WEKA3.5.7(注意版本不同名称也不同,但都是叫WEKA……),选择WEKA3.5(withconsole)

单击就可以启动WEKA,启动WEKA时我们会发现首先出现的是1个命令提示符

等待几秒种后又出现了1个窗口Weka3.5.7

这个窗口就是WEKA的主窗口,接下来我们即可使用WEKA工具了。

三、连接数据库方法

但是这时在刚才出现的命令提示符中有这样一行信息:

Trying to add JDBC driver:oracle.jdbc.driver.OracleDriver - Error, not in CLASS

PATH?

这则信息说明我们无法连接数据库,这时我们进行连接数据库的配置。

在WEKA的安装目录下(如C:\ProgramFiles\Weka-3-5)新建1个lib目录,将安装文件中的数据库Driver forJDBC(jar包)即ojdbc14.jar文件拷贝进lib,然后再右键点击桌面上的我的电脑,选择属性

切换到高级选项卡

点击窗口下方的环境变量(和刚才配置环境变量时一致),在系统变量中双击CLASSPATH(若没有此变量也需要点击新建按钮来添加,方法和前面添加PATH变量一致)

在编辑系统变量窗口中的变量值中的最前面添加ojdbc14.jar文件所在的目录,最前面要加上“.;”,假如还以刚才的目录为例,则应添加:.;C:\ProgramFiles\Weka-3-5\lib\ojdbc14.jar;

然后点击确定——>确定——>确定就可以。

然后我再将WEKA安装程序中的DatabaseUtils.props文件复制到WEKA的安装路径下(如C:\ProgramFiles\Weka-3-5),weka运行时会使用此文件。用UltraEdit打开此文件对里面的内容进行更改。

找到:

# database URL

jdbcURL=jdbc:oracle:thin:@10.8.2.16:1521:olap将jdbcURL的内容改为我们想要连接的数据库,如jdbcURL=jdbc:oracle:thin:@10.8.102.6:1521:hollycrm(假如我们安装的是ORACLE数据库,连接到10.8.102.6这台服务器,服务器的端口号(port)为:1521,服务器的名称为hollycrm)然后保存修改就可以

重新打开WEKA,我们发现命令提示符中刚才的信息现在没有了,说明我们配置成功了,然后我们点击WEKA3.5.6窗口第二个菜单(Applications)下的Explorer

这时我们就打开了Explorer窗口,在该窗口的第二栏中有4个可点按钮,我们点击第3个按钮:Open DB……

这时会出现1个新的窗口,窗口的最上方CONNECTION信息中的URL就是我们刚刚配置地址,我们点击URL右边的USER按钮

在新出现的对话窗口中分别填上我们要登陆的数据库的用户名和密码,然后点击OK,再点击USER右边的按钮:CONNECT,此时如果在最下方的INFO窗口中会显示这样的信息:connectingto:jdbc:oracle:thin:@10.8.102.6:1521:hollycrm=true,则说明我们连接数据库成功

相反,如果显示的信息为:connectingto:jdbc:oracle:thin:@10.8.102.6:1521:hollycrm=flase……,则说明我们连接数据库失败。

连接成功后我们即可在中间的Query窗口中进行一些简单的数据库操作了。

四、调整JVM

如果我们在使用WEKA的过程中,在导入csv文件时出现了JVM堆大小不够的问题,我们就需要调整JVM的参数,将内存扩充到至少512M,调整方法如下:

在WEKA的安装目录下(如C:\ProgramFiles\Weka-3-5)找到RunWeka.ini文件,打开此文件,将此文件后面的maxheap=128m修改为maxheap=512m,然后保存就可以。

注:此参数需要视数据和机器设备情况综合考虑调整。

此时WEKA安装配置均已完成。

本文标题:weka-Weka简介
本文地址: http://www.61k.com/1075094.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1