< 返回新闻公共列表
大数据应用有哪些的不足和优势的地方
发布时间:2019-01-19
当前大数据已经在许多领域得到使用,服务器租用与咱们的日子息息相关。比如,打开网络咱们就会收到关于购物的引荐广告,进入电子邮箱时就会看到系统自动识别的废物信
当前大数据已经在许多领域得到使用,服务器租用与咱们的日子息息相关。比如,打开网络咱们就会收到关于购物的引荐广告,进入电子邮箱时就会看到系统自动识别的废物信件等,这些现象背面均与大数据和人工智能密不可分。可是,与之形成比照的是,在国际关系研讨领域,大数据好像并未得到遍及使用。那么大数据在国际关系领域使用远景究竟怎么呢?现在尝试就此作一番介绍。大数据在国际关系领域的使用现状 因为专业特性,大数据在当前的国际关系研讨领域好像较少有用武之地,可是跟着数据发掘的深化,也有一些国际关系研讨开端将大数据作为研讨的变量之一。首先,比较具有使用远景的有GIS地理信息系统(Geographic Information System)供给的地理散布数据有助于学者对空间数据进行建模,使既往研讨中长期被忽视的地理要素得以重回大家的视界。其次,全球夜间灯光数据也具有使用价值,该数据由美国国防气象卫星方案(DMSP)的卫星观测所得,比较客观地反映了各国/区域的出产、日子状况,能够替代GDP成为衡量经济活动的可行目标之一。再次,谷歌(Google)公司供给的GDELT全球事情数据项目(GDELT Event Database)供给了全球100多种语言的媒体、网页上的事情信息,时间跨度为1979年至今,数据量达亿级,包含国家、事情类型、地理位置等多个维度。除此以外,学者们也能够经过选用网络爬虫技能抓取网络上自己感兴趣的信息,然后再对自己发掘的数据进行文本剖析、自然语言处理和图像识别等技能加工。 依据以上剖析,咱们能够看到,大数据在国际关系领域的使用存在限制。榜首,从研讨主体上看,传统国际关系数据库大部分重视的主体是国家,而大数据的主体则呈现向微观个别转变的趋势,比如网络讲话或微信等自媒体上的数据都是以个人为主体,因而使用大数据有助于咱们关于舆论的判断和选举的民意进行评价。第二,从时间上看,大数据借助于新技能而呈现,比如网络、卫星等,因而大数据的时间段往往集中于最近数十年,这导致关于一些涉及较长时间段的遍及性理论,比如战役与和平问题,现在的大数据好像难以供给有力的协助。第三,从数据质量看,大数据的质量有待进步,比如使用自然语言处理技能从新闻报导中获得的大数据,虽然有量大和速度快等优点,可是这类数据受到新闻报导者偏好的影响很大,有些新闻会重复报导,有些偏远区域的事情则被忽视。比如近年来民众好像对欧洲“恐袭”印象深刻,可是从发作次数看,不论是与2010年曾经的欧洲“恐袭”次数比较,还是与其他区域“恐袭”频率比较,近年的次数并不多。明显这一现象与全球媒体对欧洲的密切重视有关。因而,研讨人员要对发掘出来的大数据进行清洗,扫除重复报导、过错报导、有倾向性的报导等要素的影响。第四,大数据不一定包含整体,在核算中,随机抽样技能是为了尽量使样本能够体现出整体的特征,可是不能因为数据量的巨大就断定大数据能代表整体。比如,在考虑民意舆论时,依据网络讲话大数据得到的初步判断可能是有误差的,因为网络言辞只能表明那些乐于在网上表达意见的人群的态度,而没有考虑到不爱上网的人群和上网不爱讲话的人群的态度。国际数据存在特殊性 大数据望文生义是数据量巨大的数据,有时也被称为海量数据。跟着互联网技能的使用和遍及,人类社会中产生了越来越多的数据,比如网络讲话、网络购物、图片、音频和视频等。关于这些数据的发掘和研讨,有助于科研的立异和企业的开展。因而,咱们能够看到大数据以及人工智能算法在咱们日子中的许多方面得到了遍及使用。 可是与在国内社会领域得到遍及使用的状况不同,国际关系研讨领域好像没有对大数据加以深化探求。能够看到,无论是理论前沿还是国际关系热门,咱们都很难看到大数据的使用,这与国际关系研讨的对象有关。国际关系的研讨问题往往为高政治领域,比如国际抵触与战役、同盟缔结与破裂等现象,而战役与结盟等现象的发作次数是有限的,样本量往往很难上万,依靠传统数据库就足以解决。这导致国际关系干流数据库的数据规划都较小,比如战役相关要素数据库(COW)、乌普萨拉抵触数据库(UCDP)、奥斯陆国际和平研讨所的武装抵触数据(ACD)、同盟协议数据库(ATOP)等。因为这些干流数据库都能够免费使用,其变量、目标和维度均受到国际关系专业人士的认可,因而得到了广泛使用。算法使用进步猜测准确率 在李世石与AlphaGo的人机大战中,机器学习、深度学习算法对AlphaGo的取胜起了重要效果,这些算法相同关于国际关系猜测具有严重协助。在传统回归办法中,核算模型的假设检验需要对样本数据的散布做出假定,比如正态散布、卡方散布和F散布等,从而进行进一步核算。这一办法的缺点是,假如样本数据的散布不符合假定,则定论不一定建立。大数据中常用的机器学习算法首要选用穿插验证,将数据分为练习集和测试集两类,先用练习集建模,然后用测试集加以检验,能够规避传统回归中对散布假定带来的缺乏。现在国际关系学界也使用了一些算法进行猜测,比如朴素贝叶斯模型、Logistic模型、隐马尔可夫模型、神经网络等,取得了较好的猜测准确率。 可是,机器学习、深度学习等算法往往重视的是变量间的相关关系,而较少考虑因果关系。即使依据某些算法能够进步猜测准确率,研讨人员也很难对模型中各变量的效果机制加以解说。比如神经网络算法能够依据输入的数据得出成果,但无法给出被拟合函数的数学表达式,整个进程是黑箱操作。此外,神经网络成果关于参数十分依靠,可是调参没有客观规范,由研讨人员凭经历决定。因为以上特色,机器学习、深度学习算法往往被用于方针使用或者现实日子,而较难给国际关系领域带来严重理论突破。 在大数据年代,数据发掘技能使研讨人员能够获得大量曩昔难以得到的数据,这对国际关系学科的立异具有严重推动效果。可是,依据国际关系研讨的特色,大数据及相关算法在国际关系领域存在使用界限,咱们一方面要充分利用新技能带来的研讨立异空间,另一方面也不必过度迷信大数据,正确认识到大数据的优势与缺乏,推进学术立异。