书签 分享 收藏 举报 版权申诉 / 9

类型基于中文文本的可视化技术研究.pdf

  • 上传人:qq89391129
  • 文档编号:71545042
  • 上传时间:2019-05-07
  • 格式:PDF
  • 页数:9
  • 大小:3.28MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    基于 中文 文本 可视化 技术研究
    资源描述:
    综述
    基于中文文本的可视化技术研究
    袁海,陈康2,陶彩2,陈翀2
    (1.中国电信殿份有眼公司江苏分公司南京210037;
    2.中国电信股份有公司广东研究院广州510630)
    摘要:文本可视化数据可视化的新兴主题,其目的是让人直观地认识数据,敏捷地发现数据中隐藏的规
    倖。首先介绍了文本可视化的过程,包括信息收集、预处理视觉呈现和交互功能等;然后通过分析和使用各种
    中文文本可视化的工具,从基于标签云、树图、关联和时间序列等多方面研究可视化技术;最后对比了这几种
    技术的差异和优缺点,并指出各技术的适用场景。文本可视化能够更好地帮助用户处理口益增长的文本信息,
    提高数据的可视化效率和转换成利益的效率.
    关词:文本分析;信息可视化;文本可祝化;交互界面
    doi:10.39695isn.1000-0801.2014.04.017
    Research on Visualization Techniques Based on Chinese Texts
    Yuan Hai Chen Kang, Tao Caixia, Chen Chong?
    (1. Jiangsu Branch of China Telecom Co, Lid, Nanjing 210037, China
    2. Guangdong Research Institute of China Telecom Co, Itd, Guangzhou 510630, China)
    Abstract: The ext visualization proess was ntmdued at first, including information collection, preprocessing,
    visual presentation and interactive functions. Then based on the analysis of various Chinese text visualization tools,
    the visualization teehnology areas such as multi-based tag cloud, tree map, association and time sequenees were
    researched. At last, the advantages and disadvantages of these techniques were compared from a few aspects and the
    various technologies applicable to the scene were pointed out. Text visualization can help users to etter deal with
    the growing text in ormation o improve the efficiency of data visualization and converted into efficiency benefits
    Key words: text analysis, information visualization, text visualization, interaction intertace
    是将大批量、大段的文字简单地返回。文本可视化已经渗
    透到计算机以外的各个学科,如科学、艺术、社会学等,属
    最近几年,随着博客、社交网络等互联网产品的兴起,于一个多样化、边缘化的技术。在讨论文本可视化分析的
    海量信息不断涌现,从这些信息中提取、分析、发现重要信内容时,前人按照不同的研究给出了不同的分类结果,参
    息的方法也日新月异。这些技术中,文本可视化技术是发考文獻[给出了文本可视化研究的如下3个层次:
    展比较快的一种。诸如传统的书籍、论文,最近的Web文
    基于词频统计的文本可视化;
    本、微博博文等,其内容都是以文本为载体的,而文本可视
    基于聚类算法的文本可视化;
    化则是根据这些文本的内容,挖掘、提炼出有用的信息,并
    基于语义的文本可视化。
    且以惜有交互功能的图形、图表等形式展示给用户,并不
    文本可视化所要儆的工作不仅是将文字转换成几
    万方数据
    电德科学
    图形、图表,更大的作用在于发现一篇文槄内容的结构、主而且功能齐全,被许多机构、学校以及企业使用。
    题和隐含的特征,或者发现一系列文梢中存在的关系、模
    在分词后,最直接的文本可视化就是基于词汇的可视
    型等。同时以简洁、有交互性的图形展示给使用者,即将枯化,可以分为3种:基于命名实体的可视化、基于词频的可
    燥的信息与数据转换成美丽的、能给人深刻印象并且有意视化和基于词汇分布的可视化。命名实体是指一些关能的
    义的图形。只有将数据和信息用图形和图像表示出来,オ人名、地名、术语等词语,这些词语一般具有特殊的含义和
    能展现隐藏的知识。而文本可视化能够加快数据处理的速特定的关系,因此将这些词语进行可视化能够了解一篇文
    度,使结构化、非结构化的数据得以充分利用;可以在人、档的主?关系;文本可视化工具 Cantexterl就是ー个将命
    数据之间建立通信,从而直观观察数据中隐含的规律、热名实体可视化的自动化软件;基于词频的可视化是在统计
    点,为发现定律提供有力的工具;可以实现对计算和编程
    文本词语的出现频次后,根据问频赋予毎个词语不同的权
    过程的引导和控制,通过交互手段改变呈现结构和效果,重,并在前端将这些词语重新排列展示。其中,最常用的词
    并观察和比较其影响。
    频计算方法是 TFIDF,而最常用的可视化形式是标签云
    2文本可视化的方法与相关工具
    (或称为词云),文本可视化软件 Wordle是其中广泛采用
    的代表之一四。基于词汇分布的可视化,是反映词汇在文本
    文本可视化分析技术的研究方向有基于文本内容、基中的分布情况,通常是将整文按段落、章节等划分文本,能
    于文本关系、基于多层面信息以及对于文本流的可視化分够使用户查询词语以及词间的关系。在这方面 Tileba就
    析。根据文本可视化的设计方案和不同的应用目的,文本是反映词汇分布的可视化软件。此外,还有许多技术或软件
    可视化可以分为以下儿类:基于词汇的可视化、基于篇章用于对词汇的可视化,如结合主题特征的 Topiclslands
    的可视化、基于时间序列的可视化和基于主题领域的可视添加时间维度的 Themeriyer动态变化的 Memetracker
    化。本文的可视化研究主要是对中文文本内容进行研究。以及主题分类的 News Map?等
    般来说,文本可视化可以包括以下几个过程:信息
    对单篇文本进行可视化的另一种方法是基于文本关
    收集、预处理、知识表示、视觉呈现和交互等。其中,信息收系的可视化,也可以称为基于篇章内容的文本可视化。基
    集是文本可视化的资料收集阶段,是许多数据可视化必备于篇章,即更多的是关注、发现文章中特定的语义关系,展
    的;而预处理则是对文本进行的各种操作,包括分词、去停示文章的主题和核心内容,?现文章脉络和阅读线索。这
    用词、提取关键词等自然语言处理;知识表示则是根据要类可视化一般是将文本通过特征分析后再展示,特征分析
    求将文字组织成某种形式的过程;视党呈现则是选择适合的方法有很多,如主成分分析、多维尺度分析澘在语义分
    的图形或图表将可视化文本呈現出来的过程,需要考虑的析以及主题模型。在这方面,常见的可视化软件或方法有
    因素包指文本的数量、元素和效果等;交互则是指人机交 Phrase \etlsl, Docuburst!、 Word Tree t1等。
    展开阅读全文
    提示  文档分享网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于中文文本的可视化技术研究.pdf
    链接地址:https://www.wdfxw.net/doc71545042.htm
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    版权所有:www.WDFXW.net 

    鲁ICP备09066343号-25 

    联系QQ: 200681278 或 335718200

    收起
    展开