重要通知
《科学技术创新》版面紧张,请大家踊跃投稿。投稿邮箱 :kxjscx@kxjscxzzs.com
科学技术创新期刊信息

主管单位:黑龙江省科学技术协会

主办单位:黑龙江省科普事业中心

编辑出版:《科学技术创新》杂志社

国际标准刊号:ISSN:2096-4390

国内统一刊号:CN:23-1600/N

期刊级别:省级刊物

周   期: 旬刊

出 版 地:黑龙江省哈尔滨市

语  种: 中文;

开  本: 大16开

邮发代号 :14-269

投稿邮箱 :kxjscx@kxjscxzzs.com

在线编辑QQ :959914545

基于大数据技术的国内外智库动态监测与应用研究

时间:2020-10-26  点击:544


       

李力 魏姚

摘 要:近年来,智库发展尤其迅速,基于大数据技术,对国内外智库进行动态监测,在数据获取、处理、分析挖掘、可视化等方面进行深入发掘与分析研究,可以为多种场景的应用研究提供经验借鉴、决策参考、趋势分析等信息支撑服务,对加强我国智库建设具有一定的实用价值。

关键词:大数据技术 智库监测 趋势分析

中图分类号:G353 文献标识码:A 文章编号:1672-3791(2019)01(b)-00-03

随着社会的进程和演变,智库作为一个地区乃至一个国家软实力和国际话语权的重要体现,在处理各项事务、助力决策咨询中起到了越发重要的作用[1]。国家层面倡导的新型智库正如火如荼的建设,地方新型智库的建设也在蓬勃发展。在此期间,发现决策定位难以把握、研究方向无从估摸、成果内容不够深入等主要情况,这就需要对国内外智库进行动态监测,从中分析出有利于我国智库相关研究的实际应用场景,为其提供信息服务。

1 整体概述

针对国内外智库数量众多、资源分散且无序的特点,使用大数据技术,收集来自每个智库组织的数据,汇集后的众多不同格式的数据首先进行处理,包括数据的清洗、去重、集成、归约、有效性检验;其次对数据进行挖掘,包括聚类、分类、相关性、频繁项集、特征化;再次对数据进行可视化展示,包括折线图、柱状图、饼状图、文字云等知识图谱,经过一系列的大数据处理过程,如图1所示;最后将零乱的数据源转化为有价值的知识,最终为实际应用提供具体服务。

2 智库资源内容及采集方法

2.1 智库资源内容

智库相关数据信息众多,筛选出核心且精炼的指标信息,既能提升采集效率,又能为分析研究提供最有价值的服务。

根据智库数据的特征,将智库资源划分成智库机构、智库资讯、研究专家、研究成果四大数据体,在此基础上,对每种数据体进行指标信息设计,如表1所示。

对每种数据体建立起对应联系,智库机构以资讯进行发声,并汇聚研究专家作为核心主体,研究专家发表其研究成果,从而形成一个完整的脉络关系。

2.2 数据采集方法

按照数据体的指标信息,进行国内外智库资源内容的组织。以国内外现有智库机构名录为基础,确立数据来源导向,可以保证动态监测的时效性与准确性,利用Web信息采集技术对智库资源进行获取[2],通过该技术的应用,可以实现智库资源的自动采集、编辑和标准化,数据可以就地存储,从而脱离对人为搜索及采集数据的干预,以减少信息成本的支出,达到提升采集效率的目的。

3 智库数据分析处理

通过采集开放的智库数据具有异构性,需要对这些异构数据进行处理,包括数据清洗、集成、转换、归约,使其成为有用的目标数据[3]。

(1)数据清洗:即处理缺失值,平滑降噪数据,辨认或去除重复值和解决不规整的数据。如对智库机构中的研究专家和行政人员打标区分,对有成果的专家进行保留,无成果的行政人员进行剔除,以达到数据清洗的目的。

(2)数据集成:对不同来源的数据进行集中聚集,利用数据仓库进行存储。根据众多不同智库数据的来源,对智库机构、研究专家、成果类型等建立统一的数据仓库,每个仓库存储对应数据,从而实现数据的集成。

(3)数据转换:目的是使数据统一标准化,并将数据转换为另一种恰当的形式。由于研究成果全文的排版格式多样,进行规范化处理,转换成以html或PDF全文的格式进行存储,实现转换效果的提升。

(4)数据归约:指相同的数据在尽可能的前提下最大限度地减少数据量。从智库机构中删除不重要或不相关的特征,如机构的经费情况、运作方式、审查机制等,以减少特征向量的维度。归约后仍旧大抵保留原数据的完整性,但数据集变小。

通过一系列的大数据处理,既提升了數据的质量,又使数据更适合挖掘技术的运用,以达到数据的快速、规范化处理。

4 大数据挖掘技术的运用

经过持续的数据采集,后期的数据规模将达到海量级,从中找出隐藏的价值信息格外重要。剖析每种数据的属性,实现多维分析与挖掘,将蕴含的内在联系揭示出来,为智库的分析提供强有力的支撑。

4.1 关联挖掘

关联挖掘是为了找到数据项之间的关联。通过该技术对智库专家发布的研究成果数量来评估专家的产出情况,也可以通过分析专家同时署名的成果分布情况来发现专家之间的合作网络。

关联挖掘选用Apriori算法。实现步骤:根据向下闭包性,Apriori逐层搜索,由(k-1)-项频繁集构成k-项候选集,然后扫描数据库找出k-项频繁集,直到没有新的频繁集。此算法的优点是在频繁项集基础上产生的,继而能确保该算法的支持率达到合理的程度[4]。

4.2 聚类挖掘

聚类挖掘是按照集合内的相似性原则将数据归为若干个类别。通过该技术将研究成果按照国际关系、教育、经济、卫生、外交等主题进行聚类,发现各个领域的成果信息。

聚类挖掘采用k-means算法。实现步骤:K-means算法是利用样本目标函数求从数据点到原型的距离最大值的方法,得到重复反馈运算的调整规则。K-means利用两点间的度量距离作为相似性,以此得到某一初始聚类中心向量的最好归类,使得评价指标最低[4]。它能简单快速地解决聚类问题,对处理大数据该算法弹性大并且效率高,时间复杂度趋近正比例关系,比较符合大数据的挖掘需求。

5 可视化展示

图像的感知速率往往大于文字内容,经过数据的可视化所展现的直观信息将有效增加内容的应用率。

通过可视化技术对数据进行呈现,实现年份折线图、成果类型饼状图、年度柱状图、文字云等多种知识图谱,提高数据本身蕴涵的价值,从而快速识别数据所呈现的图谱规律。

实现步骤:将数据转化为可以观察分析的图像,每个图像对应一个维度,从对应图像上标出对应的数据情况,这样每个维度的数据都转换成为图形的形式。此技术使我们能够快速高效地简化数据流,让我们能够交互地过滤大量的数据,完成数据分析的任务[4]。

6 智库动态监测与实际应用场景

6.1 智库成果趋势分析

通过对国内外智库进行动态监测,可以对成果进行趋势分析。以10年为一个时间跨度,如图2所示,可以发现20世纪40年代至80年代,研究成果增长缓慢,但到了2000年以后,智库成果出现指数级增长,特别是近20年以来,研究成果占到总数的80%以上。通过成果数量的监测,能进行相关趋势的研究分析。

6.2 国际政策追踪与预警研究

通过对国外智库机构的长期动态关注与监测,国际上的对华政策通常会在国外智库机构先行透露,对开展政策追踪与预警研究十分必要。中国作为崛起的大国,离不开国际事务的合作参与,迫切需要借助相关研究,为我国的政策制定提供参考。

我国2013年提出的“一带一路”合作倡议,受到众多国家的强烈关注,都积极加入到合作倡议中来[5]。通过动态追踪监测国外智库,发现他们及时抓住了政策热点,发表了自己的主张与见解,研究成果呈井喷状态,特别是在2017年达到顶峰。通过这种方式进行分析与梳理,有利于精准地把握国外政策的研究现状与动向,更加科学地为我国的政策预警提供实际的应用研究。

6.3 国际舆论监测分析

近代传媒出现以来,国与国之间在舆论领域的战争已成为一种新的看不见的硝烟战争,舆论领域的博弈已成为国际博弈的第四种主要形式[6],在争夺国际话语权以及引导国际舆论向有利于本国方向的发展极其重要。

通过对国外智库动态监测发现,美国亚洲协会的“中参馆”对中国进行动态和深度报道,发表了比较多的言论与主张,如中国与非洲的关系;通过进一步监测成果主题,涉及政策主题高居榜首,不难发现对舆论的导向有重要参照因素。通过监测这些智库的资讯动态及舆论焦点,展开实时分析,对研究国家与政权的博弈过程有重要价值。

6.4 智库评价研究服务

智库日益受到大众的关注,在此形势下,智库评价研究具有非常重要的现实意义。利用大数据技术对全球智库进行动态监测,包括国内外智库的数量、舆论动态、成果影响力等进行全面综合的跟踪分析与评价,可以做到事实客观、海量数据和实时监测,能为智库评价研究提供多样化的数据利用,节省数据采集与清洗的时间,从而把工作重心放到趋势分析、智库评价等核心工作上来,大大提高研究的效率。

7 结语

目前,国内外智库数量众多,每天都会产生大量的信息,利用大数据技术,对国内外智库进行全面监测,形成完整的智库基础数据,为不同的应用场景提供借鉴、分析服务。其主要体现在以下几个方面。

(1)可以全面了解全球智库机构、专家、成果等各种智库资源的构成与基本现状,有助于拓展国际视野。

(2)能方便、快速地对国外智库机构的观点、评论、研究课题进行动态监测,开展政策追踪与预警研究,为我国的对外政策制定和交流合作提供参考。

(3)可以捕捉国内外智库的舆论焦点,对研究国家与政权的国际博弈、国际话语权的争夺以及国际舆论的引导有重要价值。

(4)可以直接用于智库整体评价、主题评价、领域评价、趋势分析等相关研究服务。

利用大数据技术,监测国内外智库的最新动态,有利于加强我国新型智库的建设,提高新型智库的相关服务水准,制订更加科学合理的评价指标体系,更进一步地贯彻我国对于建设特色新型智库的指导精神,对推进现代咨询体系的建设具有积极意义。

参考文献

[1] 赵培阳.我国新型科技创新智库的发展机制与路径研究[J].科技创新与应用,2017(11):62-63.

[2] 朱洁,罗华霖.大数据架构详解——从数据獲取到深度学习[M].北京:电子工业出版社,2016:26-28.

[3] 孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018(5):1-4.

[4] CODATA中国全国委员会.大数据时代的科研活动[M].北京:科学出版社,2014:159,160,172-173.

[5] 金杭川.“一带一路”与国际化:助力国内企业“走出去”[J].风能,2016(11):38-39.

[6] 夏庆宇.舆论领域的博弈已成为国际博弈的第四种主要形式[J].南方论刊,2017(4):13-15,19.


本文由: 科学技术创新杂志社编辑部整理发布,如需转载,请注明来源。

科学技术创新杂志社

2020-10-26

上一篇:人工智能技术应用与发展趋势
下一篇:计算机病毒智能检测及清除方法探究