下载APP
进入原新闻
进入原话题
下载APP
去提问
注册/登录
下载APP
打开澎湃客户端提问
分享
澎湃新闻客户端

美数课

数据说两会|1978年到2018年政府工作报告关键词盘点

澎湃新闻 吕妍 张轩婷

2018-03-05 15:57  来源:澎湃新闻

3月5日,第十三届全国人民代表大会第一次会议在北京人民大会堂开幕。国务院总理李克强作政府工作报告。澎湃新闻(www.thepaper.cn)整理了中国政府网上1978年至2018年共计41份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”以及“经济”等词语在过去41年中一直高频出现。值得注意的是,今年的政府工作报告着重强调了“改革”一词,运用三个排比句“思想要再解放,改革要再深化,开放要再扩大”,表示将加大改革开放力度。
还有部分词语愈发频繁地出现在《政府工作报告》中。“创新”,1997年后开始被频频提起,因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”,类似的词语还有“就业”、“创业”、“民生”等。
澎湃新闻还对比了部分关键词在这41年间的趋势变化,“农业”与“工业”相比,在近四十年里被提及状况相对稳定,但两者被提及程度几年来趋于一致。2000年以来,“制造业”与“服务业”几乎同时开始被提及,但是“服务业”的被提及率几乎都高于“制造业”。
有些词虽然在《政府工作报告》里出现得少,但是他们首次出现的时间点都反映了当年中国人关注的热点问题。
————————————
分析方法:
1.本文所有原始文本材料来自中国政府网1978年至2018年政府工作报告。
2.本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。
3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。
4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2018年政府工作报告文本。
5.涉及合并的词语:反腐包括了反腐倡廉、反腐败、腐败、反腐;城镇包括了城市、城镇;雾霾包括了PM2.5、雾霾。
责任编辑:孔家兴 澎湃新闻,未经授权不得转载。新闻报料:4009-20-4009
热评论
热门推荐