探讨文本挖掘在互连网关键词中的应用以新浪体育国际足球新闻标题为例

来源:本站 浏览

小编:  当谈到用数据解决问题时,我经常用这样的语言去诠释:“如果你不能量化它,你就不能理解它,如果不理解就不能控制它,不能控制也就不能改变它”

  当谈到用数据解决问题时,我经常用这样的语言去诠释:“如果你不能量化它,你就不能理解它,如果不理解就不能控制它,不能控制也就不能改变它”。数据无处不在,信息时代的最主要特征就是“数据处理”,数据分析正在以我们从未想象过的方式影响着日常生活,《魔鬼经济学》的作者史蒂芬列维特说:现在,游戏的名字叫数据。在知识经济与信息技术时代,每个人都面临者如何有效地吸收、理解和利用信息的挑战。那些能够有效利用工具从数据中提炼信息、发现知识的人,最终往往成为各行各业的强者!MSN:

  在数据分析技术中,文本分析的使用一直是一个较少被涉及的领域,特别是有关中文文字的文本挖掘。

  文本挖掘大致可由三部分组成:底层是文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,有五大类,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。其中需要付出大量人力物力的是文本信息的提取及内容分类,尤其对于中文来说不同领域不同行业的关键词术语各不相同,因此,构建一个适用于不同行业的关键词库显得尤为重要。

  不过基于中文的文本挖掘也有非常多的使用,比如各大媒体的2011十大关键词盘点。比如前段时间零点E-lab研究室所绘制的中国唐诗及宋词的关键词构成,非常的有趣,将古人诗歌的高频或者说比较潮的词汇都捕捉到了。并且才用网络分析图的方法将各个关键词之间的联系清楚的展现出来,甚至部分读者能够根据该网络图自己推敲出一些经典的诗句。怎么样?能够分辨出那张图是分析唐诗的,哪张是宋词么?

  言归正传,笔者也在处理有关文本分析的内容,正好借此分享一下文本分析的方法。

  正如前文所述,中文的文本挖掘集中在关键词库的建立,在没有专门软件的帮助下,使用“人工智能”倒是一个权宜之计。而人为建立关键词库的要点就在于编码,要求编码人员对关键词有相当的经验及足够的敏感度,如是多人编码还需考虑到团队的个性差异及分工协作等要素。

  笔者选择将新浪体育网站中国际足球版面的新闻标题作为研究对象(不选国内足球的原因你懂),希望通过文本挖掘的方法以小见大的分析发现新闻编辑的个人特点及标题撰写的“潜规则”。

  首先,笔者选择了2011年7月1日至2011年12月20日的新闻标题作为研究对象,在这个时间段中包括了大型杯赛(美洲杯)、转会期、日常联赛等内容,应该说涵盖了足球活动中可能出现的大多数新闻报导,共有25,598条新闻标题。

  经过整理,笔者共筛选了500多个关键词,如:转会、队长、传奇、名单、大将、赞、新星、对手、训练、国脚、锋霸、点球、VS、主场、天王等等。这些关键词的筛选,笔者筛选关键词的依据主要有以下几点:

  l需要是通过词汇,即具有普适性,比如像“贝克汉姆带儿子逛街”就不作为关键词,因为其他球员出现类似情况的概率很低。

  l尽可能多的找,然后整理。比如“小小罗”和”C罗”是同一个人,但是笔者将其作为两个关键词。

  概述篇下面列出三大类新闻标题的关键词排名,图片类以“庆祝“、”训练”、”进球”为代表;视频类新闻以“进球”、”破门”、”梅西”为代表,主要和球场活动有关,而与前两类有较大不同的是文字类新闻,排名靠前的分别是”梅西”、”宣布”、”首发”、”C罗”、”官方”等,包含内容较多,并且纵观整个文字新闻页面,使用的高频形容词是最多的。

  人物篇在排名前20的词汇中共出现三个人物名称:”梅西”、”C罗”、”穆帅”。作为球员前两人在图片及视频中占了较大比重,而穆里尼奥是唯一跻身新闻关键词前20的教练员。

  技术篇在排名前20的词汇中,涉及足球比赛描述的词汇主要集中在视频中,其次是图片,而文字新闻中场外内容占了较大篇幅。

  写作篇那么,怎么写好新闻标题,或者怎样写出新浪体育的标题?为了解决这一问题,笔者将所有标题涉及的前100个新闻标题进行相关性的网络分析:

当前网址:/tiyu/2019-07-08/114128.html

免责声明:本文仅代表作者个人观点,与河北新闻网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

你可能喜欢的: