更新:拿到了GDELT官方的回复。这次可以直接反对最高票的回答了。
最高票@ Lightwing 对avgtone的理解是明显错误的。
所以这个并不能反应某国媒体对另一个国家的态度,只是对监控中的任何新闻中提及到的所有国家的语气进行分析。只要文章中涉及了的可识别国家都会被判入actor country并作为event计算。得出的avgtone值只针对在那篇文章里面提及的event。
举个例子说就是E国觉得Z国很不爽M国。那么这篇文章里z国对m国这个事件的avgtone就是负的。然而其实这个新闻是e国的,e国推测的事实和z国媒体完全没有关系。怎么能通过这个值判断z国对其他国家的褒贬呢? 如果这个数据能说明什么,也只能说明英文媒体如何看中国,以及英文媒体如何看中国如何看其他国家的 (好绕口!!)。
而且经我查实,我之前用的这个service并没有包含中文。GDELT full search text projects和这个service是分开的。我之前提到的机翻中文只是GDELT Full Text Search API里面的。也就是说这个GDELT analysis service完全不能反应国内媒体对其他国家的态度因为根本没有中文的新闻。毕竟国内的英文新闻不占多数。
当然其他语言,比如日语韩语法语德语俄罗斯语这个analysis service也没有包括。所以也不能分析日韩德法等等非英语国家的媒体是怎么看中国的,又是怎么看待中国怎么看他国。
综上:高票答案数据对于反应国家媒体对其他国家褒贬度没有任何帮助。
以下原答案:
-------------------------------------------------------------------------------------
感谢答主@ Lightwing ,这个GDELT超级有意思。玩了一天。不过我没找到sentiment index,只看到avgtone。
但是我不同意这个数据表明国外不热衷于报道负面新闻。
这是lightwing对于sentiment index介绍。
首先这个褒贬指数不是对一个国家的褒贬指数,而是对一个国家每一项褒贬指数的总和。举个例子,假如有100篇文章提到中国吃的好吃,大部分正面评价(0到+20),总分达到了1000分。有40篇提到环境,大部分负面评价(0到-20),总分-400分。那只看这两项,所谓的中国褒贬总分竟然有600分,算总分/总人数就是4.28分/人。但是如果问一个人对中国的褒贬,可能食物在对一个国家的印象权重中就会变小。也就是说即使指数是正数也不能表明很多国家喜欢中国,只能说对中国各方面的正面评价总和比负面多。当然答主也没说这个结果表明大家喜欢中国人,问题也不是这个方面。
这个结果同时也不能说明媒体不热衷于报道中国负面新闻,只能说就他们处理的数据和avgtone而言,媒体报导的中国正面各方面新闻正面语气总和>各方面新闻负面语气总和。确实国外媒体既热衷报道正面新闻,也热衷于报道负面新闻。其实从GDELT首页的热点图就能看出,对于中国的讨论的确是全球焦点,从下载的数据我随机打开网页,无论正面负面比例都很大。但是这也是他们给出的avgtone值,而这个值能否表明褒贬指数我后面会谈
外媒报道中国负面新闻也是有道理的,毕竟确实有不少~~我更在意那些不合理或者扭曲事实的负面新闻。然而这不是题主的问题~~
同时我对答主这个数据来源有个疑问。 我下载了很多最新15min event数据啊,最开始没用filter,发现这个来源不只是新闻。是各种各样的网页。包括论坛博客之类的。答主所说的sentiment index统计的只是新闻,还是所有的这些??就比如我在2017020911500这一天下载的数据。发现有个提到北京的网页是多年以前,点进去看才知道,原来这个网页并没有重点在北京,而是跟帖有一个人提到了北京,而后每一次有人回帖,北京这个关键词又会被计算一次。所以我觉得很疑惑这个sentiment analysis。如果我输入搜索选项美国 对 北京。那之前提到的这个网页1个关键词是不是会重复计算呢。那网页热度(回复量)对于褒贬值计算是有很大的加成的。
我后来又加了filter,只查新闻就好很多,提交了filter信息以后,GDELT不到1个小时以后就发回了数据给我。虽然我依然没找到sentiment index这个名字。但我找到了AvgTone。然后随机点了几个新闻。
这是我找到的avgtone。其实这个数值不是-20到+20.而是-100到+100。其实这也不算褒贬值,只是tone(语气??) 我设置的是美国对中国这一周的看法,和中国对美国这一周的看法,我认同之前的评论,sentiment analyis算法非常重要。我用的是:GDELT Analysis Service 我随机抽查了csv里的数据
美国对中国:
好玩的来了。
中国对美国:
抛开算法不谈,我认为tone其实和真实的褒贬,含义还是有差距的。
所以我觉得我对答主的算法很有兴趣。因为我直接用网站的analysis export,统计a国对b国吧。这样得出的结论不是这个国家a媒体对另一国家b的看法的褒贬值,而其实是各个国家各个媒体报道的a对b看法的sentiment analysis,并不是a对b的褒贬值
但是为什么中国新闻这么少呢,中国13多亿人。媒体也这么多。我重新读了一下文件,发现其实所有的外语(共65种)都是通过DELT Translingual机翻,然后再做sentiment analysis的。这里面肯定有偏差值。我又联想到前段时间我要下班被谷歌翻译成I would like to work的恐惧。但是目前没找到怎么用这个DELT Translingual的方法。看介绍这个方法的确很先进,基于最先进的翻译算法。然而这个的效果怎么样呢? 我看了一个利用了这个翻译的官方project,搜索包含某关键词的网页。我试了官方例子,nigeria。跳出来的的确有中文网页,有些很对,但是有一个题目是一带一路。点进去一看完全没提过尼日利亚,只提到了尼泊尔,还有一个网页是卖药的,也没搜索到尼日利亚。。
总结一下,我觉得这个网站非常好,还有很多每天的总结报告可以看。我还没能对数据进行任何系统得分析,只是自己初步体验了下。同时我觉得这个数据对于这个问题没什么帮助。外媒说中国优点肯定是很多的,中国经济增长啊,中国美食,中国新年什么的。但其实也相当热衷说中国缺点。而其中有很多不属实(这一点没有数据支持,个人感觉,毕竟在美国大家也不是瞎子聋子)。但其实中国也经常谈其他国家的缺点,排除一些事实(比如欧洲经济危机,美国的枪支,川普),但我感觉有些优点也确实没提到,有些缺点也确实太夸大了。
用川普的话说就是“you think our country's so innocent?”用中文大概就是天下乌鸦一般黑了吧
反对第一高票答案。我自己分析过大量关于政治冲突的新闻文本,和普通新闻文本比较,英美国家对华主要的媒体偏见不体现在所有的报道中,而是集中在重要政治和外交议题的事实性定义上。这些议题占总量很小,但影响很深远,大数据做不出来。另外是否正面的语气不能证明是否报道偏了的,因为意识形态偏见是无形的,并不是西方记者故意来黑中国,所以不会体现在语气上。只是他们在解读政治时间时选取的陈述性事实层面与我国主流媒体角度选取不同。也就是说他不一定用贬损的修辞,但片面陈述一些中性事实,让我国观众难以接受。
为什么排名第一的答主其实犯了一个常见的错误:迷信数据可以直接告诉你答案不需要对你研究的事物有充分了解。这导致了问的研究问题,根本不搭边儿的,选用的数据也偏了。
在媒体偏见问题上,怎样才能得出这样精确的结论的?雇多个人手工阅读文章,当然他们经过严格训练,阅读同一篇文章,他们结论的一致率超过90%.
大数据在研究诸如内容分析这类复杂问题时并不是终极解决方案,经常得出一些看似有道理其实并没有什么卵用的结论。内容分析需要全面深度,不要贪大样本,要相信随机抽样的力量。