61阅读

浅谈文献的分类与检索-浅谈中文分词匹配与完全匹配之优劣

发布时间:2017-09-21 所属栏目:信号与线性系统分析

一 : 浅谈中文分词匹配与完全匹配之优劣

  刚刚度过每周4的百度小更新,笔者的网站的排名掉了不少下去。而好友刘敏华的个人博客却迅速的占位在我前面。为什么今天要写这样的文章呢,因好友的网站最近一直没有有更新,且快照更新的很延迟。而恰恰相反笔者的网站是每日的更新,且快照也很长长,为什么会产生这样的问题呢。后来笔者就拿这个去请教朱卫坤老师。言谈之中涉及到了两个知识点 中文分词匹配 完全匹配

  

 

  中文分词匹配又分为字符串匹配分词,理解分词方法,统计分词方法。最常用的为字符串匹配,在字符串匹配中又细分为正向最大匹配法,逆向最大匹配法,最少切分,双向最大匹配法。具体的内容大家参考下百度百科,或者笔者的个人博客里面有详细的讲解。

  完全匹配,从字面上就可以很深入的理解。是一摸一样的,如搜索笔者的名字“李金龙” 那么在百度首页出现的肯定是“李金龙”这个名字连在一起的,而不是“李xxxxx金xxx龙”

  今天的主要问题是分析中文分词匹配与完全匹配的差异。如上面的扼要,好友的网站通过完全匹配超越笔者的网站,那么他为什么会超越呢?请往下看

  完全匹配天生比中文分词匹配对于排名有优势吗?

  答案是肯定的,比方说搜索“早上吃什么”很明显的看到排在前面的是完全匹配的,而我们再往下面看看,不断的出现了飘红的字眼已经不再是“早上吃什么”,出现了更多“早上吃啥”“吃什么”“早上都吃什么”那么这么大家或许也就明白了其意义

  或许有人会问,在首页也有不是完全匹配的啊,那么这里我举个例子 同样的一个帖子发往不同的地方,可以看下他们的排名位置,那你是否会认为他们可以并排在一起位置上呢。很显然不可能,百度也有其计算的方法,如各类工具中提到的百度权重。你是否认为权重1 可以跟权重6的相比较 ,很显然是不可能的。

  完全匹配一定比中文分词匹配好吗?

  答案是否定的,世界万物没有绝对的好,同样完全匹配也是这样。再举个例子一个网站的标题是这么写的

  “今天我要吃什么东西,今天我要买什么衣服,今天我要看什么电影,今天我要听什么歌曲,今天我要看什么书...XX网”

  “今天我要吃什么东西_买什么衣服_看什么电影_听什么歌曲_看什么书...XX网”

  针对上面的举例,我想更多的人更偏爱下面这个标题。至于为什么,我想因为读起来更通顺吧!抛开其他一切的不说,网站的标题给人浏览的时间是不同的,而对于记忆成本也是有所差距的,正如一个企业的品牌网站,如果你的网站的名称很长很长,我想你的品牌在一定程度上是比较难做的。而在百度的优化指南明确的提出了,一切以用户体验为主。所以这里想要表达的就是你想做的是什么,然后再决定你该做什么。

  粗略的介绍了这么两点,其实总结出来也就是 想要流量那么你去做完全匹配,想要品牌那么就用中文分词的匹配,在此也谢谢朱卫坤老师的辛苦讲解。

  转载请注明淮安网站建设 

二 : 浅谈李清照词之分类

一代词宗李清照,是我国文学史上影响最为深远的女文学家,自号易安居士,济南章丘人。一生经历过美满甜蜜的婚姻生活,也在颠沛流离的战乱时光中饱经苦难。出生于书香门第,其父李格非藏书丰富,学识渊博,其母是状元王拱宸的孙女,很有文学修养。李清照在良好的家庭环境中打下了坚实的文学基础。20岁时(一说18岁)与门当户对的太学生赵明诚结婚,夫妇二人情投意合,志趣相投,共同吟诗作赋,收集金石字画。靖康之难后,二人在南渡中饱经战火,赵明诚去世,金石收藏大量遗失,李清照遭遇国破夫亡,备受劫难,又因“改嫁风波”、“玉壶”事端遭到非议,在孤苦悲凉中走完了人生最后的旅程。

李清照一生作品较为丰厚,有《易安居士文集》、《易安词》等著作,但早已散佚,后人收集她的作品,辑为《漱玉词》一卷,《漱玉词》五卷,有《夏日绝句》、《声声慢》、《一剪梅》、《打马图序》、《词论》等诗、词、文作品传世,词作用语清丽,善用白描;诗篇情辞慷慨,感时咏史;论词强调典雅,提出“词别是一家”。

浅谈李清照词之分类_李清照的词

图片来源于网络,如有侵权烦请联系删除

李清照尤擅作词,主要以女词人的形象示人,其词人称“易安词”、“漱玉词”,流传至今的约43首,另有多首残篇、存疑,词中可以窥见她高深的文学修养和开阔的人生视野。总体来看,她的生活状况因南渡而分为前后两个不同的时期,其创作内容也因此而大体呈现出前后期两种特点。前期词作集中反映了她闺中生活、初婚时代的轻快甜蜜,所抒情感主要是对丈夫的爱恋与思念,对自然景物的热爱与眷顾。后期词作主要抒发了她国破家亡、感时伤事的悲戚孤独,题材集中于家国之叹,即时感怀。易安词独立于宋代词坛,自成一家,人称“易安体”,侯寅《眼儿媚》调下题曰:“效易安体”;辛弃疾《丑奴儿近》调下题曰:“博山道中效易安体”;陈廷焯说:“李易安词,独辟门径”(《白雨斋词话》)。可见易安词鲜明独特的个性风神。


广大文人学者一直致力于对易安词分类问题的考察与研究,若将40余首词简单分为前期词和后期词两部分,则不免过于笼统,况数百年的传抄与散佚,导致许多词作无法完全确定其作者及写作时间,仅从思想感情的表达上来推断时间点又难免轻率,易致疏漏。另外,李清照的许多词作很难单独分在一类当中,通读四十余首词后我们可以发现,许多词作具有多重感情色彩,既属于这一类也同时属于那一类。因此在参阅众多先贤时彦的研究成果之后,晚生试以题材为标准,将易安词大致分为以下几类:

浅谈李清照词之分类_李清照的词

图片来源于网络,如有侵权烦请告知即刻删除

一、借花寓怀类

不知是否因为偏爱的缘故,无论前期还是后期的词作中,李清照有很多借梅花寓托情怀的作品。另外还有一些咏菊、咏桂、咏芭蕉的词作,数量众多,质量很高,故我将之统一称为“借花寓怀”并归为一类。代表作品有《玉楼春·红酥肯放琼苞碎》、《鹧鸪天·暗淡轻黄体性柔》、《多丽·小楼寒》、《清平乐·年年雪里》等。这些作品中,李清照毫不吝惜自己对梅、桂、菊等品行高洁之花卉的爱意,将自己的人格诉求倾注其中,用语清新典雅,词调音韵和谐,读来朗朗上口,近人情而不俗,如“藤床纸帐朝眠起,说不尽、无佳思”(《孤雁儿》)、“今年海角天涯,萧萧两鬓生华”(《清平乐》)、“何须浅碧轻红色,自是花中第一流”(《鹧鸪天》)、“伤心枕上三更雨,点滴霖霪”(《添字丑奴儿》)等等,语义浅近而不同流俗,明快易懂而雅趣盎然,别有三分疏朗点缀其间,给读者带来深刻印象。

浅谈李清照词之分类_李清照的词

图片来源于网[www.61k.com]络,如有侵权烦请告知即刻删除

二、闺怨怀人类

少女怀春而发闺怨之叹,少妇思夫而述相思之苦,是女性文学中的常见现象,李清照也不例外,这类词一般见于她的早期词作中。李清照生于书香门第,官宦之家,少女时代是悠闲安逸的,即使偶发悲音也是人间轻愁,远不似后期悲苦之浓重深远。而与赵明诚结合后,两人心意相通,志趣相投,随着赵明诚的出仕,李清照便不免独守家中,这就生发出一首首略带哀怨的思夫之词,即使如此,这些词中也暗含了两人书信互往、彼此眷恋的幸福之感。因此我将这些词划归为一类,统称为“闺怨怀人类”。这一类中的主要词作有:《如梦令·昨夜雨疏风骤》、《浣溪沙·淡荡春光寒食天》、《一剪梅·红藕香残玉簟秋》、《醉花阴·薄雾浓云愁永昼》、《浣溪沙·莫许杯深琥珀浓》等。这些作品名为“闺怨怀人”,却也从侧面烘托出李清照与丈夫赵明诚赤诚相恋的浓浓爱意,以及前期生活的舒适安稳,即使春光淡荡,沉水烟残,语词间也蕴含着闲问“知否”、梦回山枕的轻盈曼妙,即使“帘卷西风,人比黄花瘦”,也离不开东篱把酒、暗香盈袖的优雅底蕴。不似朱淑真“此情谁见,泪洗残妆无一半”的孤苦,也不像柳永“系我一生心,负你千行泪”的痴意,于李清照而言,无论是惜春曲、望夫词,这种色泽光鲜的灰度、曲意轻快的哀愁正是李清照“闺怨怀人词”最为与众不同之处。

浅谈李清照词之分类_李清照的词

图片来源于网络,如有侵权烦请告知即刻删除

三、恬意游赏类

描写日常生活之欢乐祥和也是李清照词作的重要组成部分,这一类词主要记录了李清照闲适生活的点滴趣事,少女情怀的娇痴蜜意,或者在舒缓的笔调中回忆早年欢愉。这一类别中的主要词作有:《如梦令·常记溪亭日暮》、《点绛唇·蹴罢秋千》、《减字木兰花·卖花担上》、《摊破木兰花·病起萧萧两鬓华》等。这一类词作通常笔调舒缓,或情致欢愉,将相对平安喜乐的日常故事流于笔端,记述了词人最真实的生活情态。一般来说,闲适与欢乐比悲愁更难抒写,更见笔力,由此我们可以探得李清照功底之深厚,才情之斐然。另外,我将《摊破木兰花·病起萧萧两鬓华》也划归此类,是考虑到相比于“常记溪亭日暮”的轻盈,“病起萧萧”一篇显得余味深厚,但总体而言这首词并无浓烈的悲意,而有着大病初愈后身心具轻、淡漠凡俗的意态,也许“愁到深处是平常”,这首词便有着这般意蕴,让读者痴重的尘俗中读出了几许历破沧桑心已淡的恬意。这就是我将这首词划归为这一类的主要原因。

浅谈李清照词之分类_李清照的词

图片来源于网络,如有侵权烦请告知即刻删除

四、羁旅愁苦类

中后期的词作中,生活带给李清照的坎坷与磨砺逐渐显露出狰狞的面孔,尤其在靖康之难后,李清照经历了国破家亡、孤身流离的种种痛苦,受尽劫难磨折,命运的剧烈转折让她的文风陡转,从前的轻快流丽不知所踪,取而代之的是沉重哀伤的生死恋歌,这种浓郁深重的哀恸反映在诗词中,就组合成“羁旅愁苦类”的词作。代表作品有:《声声慢·寻寻觅觅》、《武陵春·风住尘香花已尽》、《菩萨蛮·风柔日薄春犹早》、《菩萨蛮·归鸿声断残云碧》、《蝶恋花·晚止昌乐馆寄姊妹》等。这类词作中也蕴含着其他作品所不能有的时代特色,尤其是生命将逝的悲哀,往昔盛景之不再,灰冷凝重的笔意将时代的苦难尽数倾尽,让我们得以在体味词人悲痛之余浏览战火漫野民生困苦的历史实景。

浅谈李清照词之分类_李清照的词

图片来源于网络,如有侵权烦请告知即刻删除

五、家国之叹类

将“家国之叹”独立列出,是因为在这类词在羁旅愁苦之外别有一番感时伤事、为国哀叹的阔大气魄,较之内心的愁苦,境界更为宏丽,立意愈加高远。这一类别的代表词作为《临江仙·庭院深深深几许》、《蝶恋花·上巳召亲族》等。“春归秣陵树,人老建康城”、“感月吟风多少事,如今老去无成”、“空梦长安,认取长安道”,略读几句,便可探知其中几许男儿气概,每一字的选用都如此精准,每一句的结合皆余味无穷,这番吟诵有如饱经世事的白须老者凭栏远眺所作的幽幽之叹,绝不似一般女儿家强抒豪情之做作,李清照开阔的眼界思维与男儿般的性情可见一斑。此类词作与李清照的诗歌作品有类似之处,她流传下来的诗作虽然不多,却多为“感时忧国、慷慨雄劲”之作,如“木兰横戈好女子,老矣不复志千里”(《打马赋》)、“欲将血泪寄山河,去洒东山一掊土”(《送胡松年使金》)、“生当作人杰,死亦为鬼雄”(《夏日绝句》)等等。陈衍在《宋诗精华录》中评价李清照的诗作“雄浑悲壮,虽起杜、韩为之,无以过也”。这种高远的诗歌立意与精神内涵,在她的此类词作中得到了充分体现。由此我们也可以得出,将诗、词、文的研究结合起来,以诗观词,以词观诗,从不同角度探求作者的诗词内涵与人格品质,是深入解读文人作品的好方法。

浅谈李清照词之分类_李清照的词

图片来源于网络,如有侵权烦请告知即刻删除

以上就是笔者对李清照词的粗略分类,其中定有疏忽粗陋之处,谨请方家教正。最后需要补充说明两点:一是由于词是一种抒情性文体,逻辑性结构性并不非常严格,一些词作由于其抒情主体、写作时间的不同,可以划归到两类甚至三类之中,因此在具体分析每一首词时,应该将之划分到哪一类中还需要在深入阅读后做具体的分析。二是李清照的这首《渔家傲·天接云涛连晓雾》有游仙词的味道,也有记梦词的含义,如果单为一首词而列出“记梦”一类显然不甚合适,而这首词无论是游仙还是记梦,都是作者寓托情怀之作,因此我将之划归为“寓托情怀类”,暂且安放于“借花寓怀类”之中。

世间女子多有伤春悲秋的小情怀,遍观中国女性文学史,姓名与作品皆有流传者虽远不及男子之多,但亦可窥见浩然女性文学世界中无处不在的女儿才情。李清照虽为女子,却与众不同,作为中国文学史上创造力最强、艺术成就最高的女性作家,她不仅能够大胆真挚地表达对爱情的热烈追求,而且在表达上还具备浓郁的文学色彩,在抒发内心世界、自我情感的作品中并不一味自苦,而是将家国之叹融入怀人之思,将品格之咏写进伤情之作,语句中既有女子柔情如水的绵柔闺音,又不乏些许浅淡疏放的“男儿气”,颇有一些当代人所谓“大女人”之气。也许这也就是李清照力压群才地位崇高的重要原因之一吧。

简书期待你的加入:加入简书

参考文献

1.《中国文学史》袁行霈

2.《中国文学发展史》刘大杰

3.《中国女性文学史》谭正璧

4.《女性词话》谭正璧

5.《中国妇女文学史》谢无量

6.《李清照集校注》王学初

7.《唐宋词选释》俞平伯.选注

8.《唐宋名家词选》龙榆生.编选

9.《中国文学简史》林庚

三 : 贫穷浅谈四 分类

梭罗曾说过;“我心目中还有一种人,这种人看来很阔绰,实际上却是所有阶层中贫困的最可怕的。他们固然已经积蓄了一些钱,却不懂得如何利用它,也不懂得如何摆脱它,因此他们给自己铸造了一副金银的镣铐。当文明改善了房屋的时候,它却没有同时改善了居住在房屋中的人。”我们不难明白其中的含义,再富有的人如果内心空乏,精神缺失,道德沦丧,人性泯灭。那么他们才是真正意义上的最贫困的人。也就是说贫困之间存在明显分类。一种是物质贫穷,另一种是精神贫穷。正像我浅谈一中所说物质贫穷可以是一种资源,善于利用,可作为人生成长的催化剂。而精神上的贫穷会让我们被这个社会所抛弃,因为从此我们的心灵惶惶不可终日,空虚迷惘,永远得不到他人的真心对待。在欺诈虚骗中走向消亡。不容置疑对于物质化的世界,金钱显得越来越重要,但是如果我们生活只是为了钱,我们将会活得很累。在忙碌的工作中,我们已经忽略了太多的美丽,而这些美丽的光景的缺失让我们短暂的人生褪去了几分颜色。在现实生活中已经出现了许多例子:忙于事业,忽略父母,但父母去世时才幡然大悟;为了公司的发展不择手段的打击其他公司,结果落得孤立无援,终遭破产。其实金钱不是幸福,一个人即使贫穷也能幸福。在中国社会还有许多人处在贫困中但往往他们的幸福指数比富人高得多。其中的原因,不得不令人反思。精神贫穷比物质贫穷更可恶。我记得在5。12大地震中,一个乞丐捐出了其全部钱财数万元,而有的富人不但不捐还冠面堂皇,嗤之以鼻,唏嘘一片,难道金钱对乞丐不重要,我想起意义比富人高得多。但他们明白一个道理:帮助他人才是真正的用之不竭的财富。守财奴守住了什么,如堆的钞票,存折,银行卡,却不知道自己的最重要的宝物已经流失。但他们发现是,自己只是一副皮囊,空壳并且成为了精神上丑陋的乞丐。

四 : 第三节 分类索书号与分类检索系统(2)

使用时,为每个取种次号的类号设置一卡。每用一号,在号码右边空格中打一“√”号,表示此号已用去。此卡可双面使用,一张号码用完,再添新卡。但由于种次号记录卡通常须按分类号单独排列成一个系列,以备查找使用,比较麻烦,许多文献单位往往使用代号卡的方法代替。图7—2 种次号记录卡使用代号卡是一种直接依据分类目录确定种次号的方法。编号时,先在分类工作目录中查出该类已取的种次号,在确定新的种次号同时,在取种次号的位置上插入一张卡片,表示已取的种次号,作为文献编目过程中其他同类文献取种次号的依据。该代号卡代表的文献完成分编后,在将正式卡片收入目录的同时撤消此卡。这一过程可以结合分类工作程序进行,适用于以每个类目作为取号起点的文献单位。使用种次号的特点是:号码简短,取号方便,可以把同一种文献集中在一起,有利于按类对文献进行统计。其不足主要是:不能集中同类同著者的文献;号码的确定具有偶然性,各馆无法统一;同时,种次号从属于特定类目,在分类法修订后,必须同时改变种次号。使用种次号一般还需进一步区分同 种文献的不同版本、卷次等。

(3) 按著者姓名字顺排

按著者姓氏字顺排一般需首先将姓名字顺转换成号码。代表著者姓名的号码,称为著者号。著者号的获取一般需以一定的著者号码表为工具。所谓著者号码表,是一种以著者姓名的音或形为依据,按照一定的取号方式编制的表。著者号码表的编制是与著者姓氏所采用的文字的特点相联系的。各国一般均根据其文字的特点编制自己的著者号码表。例如:英文采用的克特著者号码表、俄文采用的哈芙金娜著者号码表等。中文文献由于汉字排检方法多样等原因,出现了多种形式的著者号码表。按照号码编制方式,我国的著者号码表大致可以分为查号法、拼号法两种。

查号法著者号码表通常按汉字的音或形,将常用著者姓名,按一定的顺序列入表中,使用时,可以像查字典一样按照一定的检字方法查找。按检字法的不同,主要有汉语拼音著者号码表与笔划笔顺著者号码表两类,其方法大同小异,一般都在一定汉字排检顺序的基础上,按照各种姓氏出现的频率分配号码,供查检使用。下

上表中,根据频率的不同,有的一个号码几个姓,有的一个姓几个号码。使用时,后一种情况一般应同时按作者的姓及名的第一个字确定。例,按照上表,下述作者的号码如下:

目前我国正在推广使用的《通用汉语著者号码表》就属于按拼音方式组织的查号法著者号码表。

拼号法著者号码表则是根据汉字音或形的特点,划分成若干组,每一组分配一个号码,使用时,根据姓氏音或形的组成特点,按所属的组取号。按照取号所依据的不同特点,也可分为音序和形序两类。如:蒋完奎的音序拼号法著者号码表将26个汉语拼音字母分成9组,以0表示空位如图7—3所示。

图7-3 拼号法著者号码表



使用时,如按著者姓名的首字取号,则可以首字母开头,同时使用后两位字母取号,如(GUO)的号码为G86,李(L1)的号码为L03。如按著者姓名的首字母取号,则郭沫若(GUOMORUO)的号码为357;李准(LIZHUN)的号码为409。

最典型的形序法著者号码表是将四角号码检字法用于著者号的获取。使用这种方法,只要规定在著者姓氏中取号的位置,就可以得到相应的著者号码。

著者号的优点是:可以集中同类同著者的著作,这是任何其他同类排列法所不可能做到的;如果能采用统一的著者号码表,就有可能实现书次号的规范化。但使用著者号一般须熟悉著者号码表,同时必须解决取著者号过程中存在的各种问题,如不同情况下著者的确定问题,不同类型著者的号码确定问题,以及出现相同著者号或同一著者号的情况下不同种文献的进一步区分问题等。目前我国国内影响最大的著者号码表是《通用汉语著者号码表》。

3.分类索书号的编制

分类索书号是表示一文献在分类收藏中位置的号码。它是文献单位中文献分类排架、用户检索和藏书清点的依据。分类索书号通常是在分类号、书次号的基础上确定的。但在书次号采用著者号、种次号的情况下,对同类书的区分只进行到著者或同一种著作,同一著者下还存在着不同种的著作,同一种著作下还存在着不同的版本、译本、卷次等,并没有实现个别化。为了适合文献组织和检索的需要,一般仍需要进一步区分,并赋予相应的辅助区分号。因此一个完整的分类索书号通常包括分类号、书次号、辅助区分号三个层次。分类索书号可分三行书写也可分两行。

下面按照《通用汉语著者号码表》的规定,简单介绍在采用著者号的情况下,尚需进行的辅助区分及相应的确定辅助区分号的方法。包括:

(1) 著作种次号。用以区分同一著者的不同著作。通常从第二种起依次编号,以辅助符号“/”结合数字标示。

(2)注释本、译本区分号。用以区分同一著作的不同注释本、译本,通常从第二种起依次编号,以辅助符号“一”结合数字标示。

(3)版本号。用以区分同一著作的不同版本,从第二种开始依次编号,以辅助符号“结合数字标示。

(4)卷册号。用以区分同一著作的卷次、册次。以辅助符号“:”结合数字区分。如需同时区分卷、册,可以辅助符号“.”标示分

年鉴、年刊、年度索引等按年代出版的著作,直接使用年代作辅助区分号。如在年代后还需要区分卷、册,再使用卷、册号区分。

除使用上述符号进行辅助区分外,文献单位一般还使用以下辅助符号:

(1) 类型符号。用以揭示特殊藏书的类型。类型符号一般使用汉语拼音字母或特定符号表示。例如,以拼音字母“(;”表示工具书,以“T’’或“#”表示图谱等。此类符一般标示在分类号上方。

(2) 文种号。用以揭示文献所使用的文别。一般用在将不同文字的文献统一组织检工具的文献单位。为便于识别,对中文图书外的文献加标文种号。可将规定的大字母置于分类号之上,如“E”表示英文,“J”表示日文等,也可直接标示(英)、(日(德)等。对不同文种的文献分别组织目录的文献单位,不必采用文种符号。

此外,有的文献单位还对收藏同一种文献同一版本、卷次的复本加以区分并赋予复号。但这种号码对文献组织和揭示的意义不大,一般可以省略。
本文标题:浅谈文献的分类与检索-浅谈中文分词匹配与完全匹配之优劣
本文地址: http://www.61k.com/1092605.html

61阅读| 精彩专题| 最新文章| 热门文章| 苏ICP备13036349号-1