说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
每次拓词获得了大量的关键词之后,要整理关键词数据。以前的做法相对简单粗暴,直接将这些内容交给客户了。其实客户也不能看出个所以然来,更别说做一个系统的关键词库了。所以趁着这次的机会,来说说步,如何用工具来处理这些关键词数据。
样本库选用了”手机游戏排行榜”的300个拓展的词(量比较小,整理弄好也花了不少时间),当初在一边做一边想。因为这个关键词库的处理终的影响结果是为了确定关键词的子父级和确定页面下的调用内容,和为将来的内链系统做准备的,所以如果有偏差请原谅。当然只是说说怎么用ICTCLAS2015工具处理这些关键词的数据(不忘目的)。
地址 http://ictclas.nlpir.org/upload/20141230101836_ICTCLAS2015.zip 好后,进入ICTCLAS2015in,用NLPIR_WinDemo.exe这个程序打开。
1、首先说一下,用户词典这个功能,因为比较实际,如果你不添加自己的词库,例如上面的例子“手机游戏”、“排行榜”等几个关键的词,产生的分词结果会很杂乱,到时候会看到“手”、“排行”、“榜”等单独的字块信息,这样处理起来会很乱。所以如下图把不重要的会产生干扰的词不断完善到词库里,减少后期的处理量。用户词是需要的“需要添加的关键词”,自定义词性定义了这个词的属性,我习惯用英文的n,adj,adv什么的去标记,待会告诉你这个东西会出现在哪里。 2、接下来是分词了。如下图,没有添加到过用户词库里的词出现了“”、“热”和“火”分开的结果,“手机游戏排行榜”这个词作为n_newword里过滤结果。 然后你可以把这些东西复制到自己的excel里,去做处理了(如何处理看你自己的excel或者编程的功底,请自行脑补)。下图是处理过的结果,这将近300个词的词根这样出来了。 第二张表格是对应的处理完的各个词的分词结果,这个有些词根出来的结果(比如那一串的“免费”、“卡牌”)能帮你确认这部分的相关词了,终采用一个写title行。总结:来说说这样做的意义吧。
1、你是不是做类似http://www.dajiabao.com/jihua/shanghai的时候在想用什么去分类呢?仿照倒数第二张处理的结果图,你的页面和分类的维度是不是能比较清晰的出来了?
2、比如“苹果|”这个词,你在做列表页的时候,它的上级可以从“苹果”里去调取父级的内容;可以从“”(形容词库)里去调取相关的内容,做成同质推荐;假使有“苹果||动作”这个分词的结果,那么可以将其内容作为“你是不是想找……”这样的子级内容。至少这样页面在相关性上也更加容易被用户所接受,不再是千篇一律的调用同一个板块。 说一下关键词提取->词频这个功能,能帮你快速确定,你以前很粗矿的拓词中加的类似“价格”“评论”这些个长尾是否真的出现的频率有想像中的这么高。
推荐阅读
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732