当前位置:
首页 > 论文 > 通信论文 > 基于分词技术的中文网站内容分类方法 - 学兔兔 www.bzfxw.com .pdf
基于分词技术的中文网站内容分类方法 - 学兔兔 www.bzfxw.com .pdf
上传人:jasperjdj
文档编号:47865124
上传时间:2019-05-07
格式:PDF
页数:4
大小:235KB
最后一页预览完了!喜欢就下载吧,查找使用更方便
1人已下载
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
-
基于分词技术的中文网站内容分类方法
学兔兔
www.bzfxw.com
基于
分词
技术
中文
网站
内容
分类
方法
www
bzfxw
com
- 资源描述:
-
一 M N o L 0 F TE LEco M M U Ic A110 N s 基于分词技术的中文网站 内容分类方法 张小英工业和信息化部电信研究院泰尔实验室工程师 解谦工业和信息化部 电信研究院泰尔实验室工程师 摘要: 随着互联网技术的飞速发展 , 如何有效地 组织和管理就成了人们首先需要解决的问题。本 文提 供 了一种基 于 网站 内容对 互联 网站进行 分 类的方法。研 究并探讨 了实现 网站分 类方 法的一 系列关键技 术 , 包括 分 类体 系的确定 , 训练 集的 建立 , 文本预处理, 特征提取和分类器的实现 。最 后给 出了该 网站分类方法的分类质量实验 结果。 关键词 : 分类体 系, 文本预处理 , 特征提取 Ab s t r a c t :Al o n g w i t h t h e d e v e l o p me n t o f t h e i n t e r - n e t , i t h a s b e c o me a n i mp o r t me n t t h i n g i s t o o r g a - n i z e a n d mana g e t h e i n f o r ma t i o n e ff e c i t i v e t y T h i s p a p e r p r o p o s e s a c a t e g o r i z a t i o n me t h o d o f C h i n e s e we b s i t e ,wh i c h i s b ase d o n t e x t c o n t e n t o f we b s i t e I t g i v e s a r e s e a r c h o f s e v e r a l k e y t e c h n i q u e s a b o u t Ca t e g o riz a t i o n me t h o d ,i n c l u d i n g t a x o n o mi c h i e r a r - c h i e s , f o u n d a t i o n o f t r a i n i n g s e t ,T e s t p r e t r e a t me n t , F e a t u r e e x t r a c t i o n and c a t e g o ri z e r F i n a l l y t h e p a p e r g i v e s t h e e v alu a t i o n s a n d r e s u l t s Ke y W o r d s :t axo n o mi c h i e r a r c h i e s ,t e x t p r e t r e a t - me ri t ,f e a t u r e e x t r ac t i o n 1概述 1 1 关于互联网网站分类 随着互联 网技术 的迅速发展及普及 , 目前 已有超过 上百万个互联网网站 , 面对如此海量 的信息 , 如何 有效 地组织和管理就成了首先需要解决的问题 。对网站进行 分类 , 使普通用户能够实现更快 的检索 , 专业 的用户 和 行业管理者能够实现更高效的数据统计和挖掘, 已经成 为 目前研究 的一个热点。 网站分类 , 是 指通过对 网站信息的整合 、 规划 , 将 同 类信息进行整理 , 归纳为 同一板块 , 使浏览者搜索 目标 更加明确 , 使查找的信息 内容更加迅速 、 精确 。网站分类 方法可 以有多种形式 , 如根据网站 主体性质分类 、 网站 用途分类 、 网站内容分类 、 网站使用技术分类等。 网站内容分类方法实 际上是基于普通文档分类方 法 。在互联网出现 以前 , 已经形成了各种文档 自动分类 技术 , 随着海量网站信息的出现, 文档分类技术也扩展 到了电子化领域 , 形成 了网站分类 的基础。不同于传统 英文文档分类技术 , 中文网站分类具有如下特性 : 第一 , 英文文档的词与词之间存在天然 间隔 , 而中文文档则不 具备此特征 , 所 以中文文档需要进行分词处理 ; 第二 , 网 Z o 1 簪 2 昂 第 ll 靼 竺 苎 ! 翌 苎 万方数据 R h E x p o r a t i o n 页使用超文本设计 , 拥有大量的 H T M L 语言的标签 和超链接, 这些标签能够给我们提供更多的信息量; 第三 , 网站的网页中通常包含大量的干扰信息 , 即噪 音 , 比如广告等 , 这就需要在对网站进行分类计算前 先进行降噪处理 , 在此不多作介绍 。 1 2 分类体 系的选择 目前互联 网站分类的应用多集 中在门户网站或 导航 网站,旨为普通 网民提供方便快捷的方式找到 自己需要的网站, 其分类体系大同小异。 此种分类体 系适合普通用户的 日常使用 ,但对专业用户来说对 领域的区分支持不够 , 比如对特定行业 的搜索 , 比如 各行业监管部门的监管需求。相关网站用户只能通 过 自动输入关键词通过搜索引擎进行查找 ,相关 的 统计数据挖掘工作也几乎无从下手。 为解决该 问题 , 本文根据 国民经济行业分类 】按行业将互联网网 站分为 2 0个大类 。如表 1 所示。 表 1 互联网网站分类 A 农、 林、 牧、 渔业 B 采矿业 C 制造业 D 电力、 燃气及水的生产和供应业 E 建筑业 F 交通运输 、 仓 储和邮政业 G 信息传输、 计算机服 务和软件业 H 批发和零售业 I 住宿和餐饮业 J 金融业 K 房地产业 L 租赁和商务服务业 H 科学研究、 技术服务和地质勘查业 N 水利 、 环境和公共设施管理业 0 居民服 务和其他服务业 p 教育 0 卫生、 社会保障和社会福利业 R 文化、 体育和娱乐业 S 公共管理和社会组织 T 国际 组 织 u a r v F e b r u a r v 2 ol 2 2 网站内容分类方法 网站内容分类的核心原理 ,就是利用网站所属 的类型与 内容 中的词汇存在 的对应联系,一般 同一 类 网站内容间存在多个共同的词 ,而不 同类 网站内 容间包含的词之间的差异很大。 因此 , 需要先找出每 个类别与内容 , 即相应词汇的对应特征 , 然后再通过 分析待分类网站内容的词汇构成 ,对 比每个类别的 特征 , 找到特征最接近的分两类 。 以上过程实际就是 网站分类的过程。 2 1 分类过程与原理 由于中文 网站的特殊性 ,网站分类 由以下两步 构成。 第一步 , 预料训练。 首先根据确定的分类体系由 人工建立训练集。然后 由系统 自动对训练集中的网 站内容进行预处理。再对预处理后的训练集预料进 行特征提取。 第二步,网站分类。将待分类网站先进行预处 理 , 处理方式与第一步相 同。 然后使用分类器的分类 算法将待分类的网站内容的特征与训练集训练出的 类 的特征进行对比匹配 。 最后得 出分类结果。 如图 1 所示 。 人 工建立训练集体 待分类阀站 内容 一 - 一 , j : , , , 特 征提取 特征提取 : 0l _ _ 一 _ l l l一j 一一王 一 分类器 一 I 分 类算 法 。 分类体系 I 0 00 叠 - 图 1 网站分 类过 程 2 - 2 建立训练集 由人工方式对 每个类分别 收集 5 0个 网站 , 2 0 万方数据 M 呲 棚 个大类共收集 网站 1 0 0 0个 ,记 录网站名称 ,首页 U R L ( 域名, 仅抓取首页页面) 和所属分类。 2 3 预处理 由训练集的网站首页 U R L , 通过爬虫对网站内 容进行抓取。 将获取网页内容进行预处理。 预处理主 要是将网站内容进行分词处理。中文分词是把汉字 字符序列用计算机切分成有意义的最小语义单位序 列的过程, 也是网站分类系统的基础。 本文选用机械 分词法, 在保证一定准确率的基础上, 尽量提高分词 效率 。 2 3 1逆向最大匹配分词法 目前主要 的机械分词法有正向最大匹配法( MM 法 ) 、 逆 向最大匹配法 ( R MM) 、 逐词 匹配法 、 部件词 典发、 词频统计法、 设立标志发、 并行分词法、 词库划 分和联想匹配法等2 1。 其中占主流地位的是正向最大 匹配法和逆向最大匹配法 。 一般来说 , 逆向匹配的切 分精度略高于正向匹配, 遇到的歧义现象也很少。 统 计结果表明,单纯使用正向最大匹配的错误率为 1 1 6 9 , 单纯使用逆向最大匹配的错误率为 1 2 4 5 。 基 于此 , 本文采用逆 向最大匹配法 。 逆向最大匹配简单来说是设 6 8 个汉字的符号 串作为最大词长,把最大词长的符号串与机器词典 中的单词条 目相匹配 , 如果不能匹配 , 就削掉一个汉 字继续匹配 , 直到在词典中找到相应的单词为止。 匹 配的方 向是从右 向左 。 分词逻辑如 图 2所示 。 2 4 特征提取 特征提取是为了找到指定 网站 内容的特征 。网 站 内容是由词汇组成 的,将不 同的词汇赋予不 同的 权重值 , 将文本表示为词汇的向量表示 , 就是内容的 特征。特征提取的输入就是经过预处理的训练集内 容或待分类网站的内容。 目前有多种特征选取方法 ,如 :文档频率 ( T F I D F ) 、 信息增益( I G ) 、 互信息( M I ) 、 开方检验 ( C H I ) 、 术语强度( T S ) 等。 针对英文纯文本比较研究 帔 谳 一月 L r _ 图 2 分词逻辑 了上述五种经典特征选取方法的优劣。相关实验结 果表明: C H I 和 I G方法的效果最佳; D F 方法的性能 同 I G和 C H I 的性能大体相当, 而且 D F 方法还具有 实现简单、 算法复杂度低等优点; T S 方法性能一般; M I 方法的性能最差。针对中文网页, 其结论是否还 正确 , 目前还没有很 明确 的结论。 对比各种特征选取方法,本文选择文档频率算 法计算词汇的向量表示 。 , = ( 1 ) 矿 ( f, ) 1o g ( N + o lo 1 ) 设 W( t , ) 为词汇的向量表示 , 而 矿( f , ) 为词 t 在 文本 中的词频, N为训练文本的总数 , n l 为训练文 本集 中出现 t 的文本数 , 分母为归一化 因子。 2 5 分类器 K N N分类算法 ,是一个理论上比较成熟的算 法。 该方法 的思路是 : 如果一个样本在特征空间中的 k 个最相似( 即特征空间中最邻近) 的样本中的大多 数属于某一个类别, 则该样本也属于这个类别。 K N N 算法中, 所选择的邻居都是已经正确分类的对象。 该 方法在定类决策上只依据最邻近的一个或者几个样 本的类别来决定待分样本所属的类别。 K N N方法 2 0 1 l2 零 日 葶 =: 鼹 釜 皇 ! 苎 羁 IIl 万方数据 R 二 : 虽然从原理上也依赖于极限定理, 但在类别决策时, 只与极少量的相邻样本有关。 K N N方法主要靠周围 有限的邻近的样本 ,而不是靠判别类域的方法来确 定所属类别 的。 K N N算法分两个步骤 : 第一 ,在训练集中选取特征与待分类 网站内容 最相近的 k 个样本。j ( 可 以自由选择。我们取 k为 5 0 。计算公式如下 : M 一, S i m ( 4 , , ) 了 一 ( 2 - ) 、f( W z 、 W 2 ) Y=1 k=l 第二, 再根据选择 出的 个相近文本 , 分别计算 待分类网站与各类 的相似度, 公式如下 : ( , ) = S ire ( ,2 , 4 ) y ( 4 , C , ) ( 3 ) d E矾N 其中, 为新文本的特征向量, S i m ( , ) 为相似 度计算公式 ,与上一步骤 的计算公式相 同 , 而 ,C j ) 为类别属性 函数 , 即若 属 于类 C , , 那 么函 数值为 1 , 否则为0
展开阅读全文

文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。