2005-2020考研英语真题数据分析报告
考研英语从2005年开始使用新题型,所以分析从这一年真题开始。
2005-2020年考研英语真题数据分析报告(文本处理方式不同结果可能会有出入)
处理源数据
1、首先准备真题文件,然后将其导出为TXT文件。
2、将所有中文删除,调整文本格式
3、英文题目说明一般不看一并删掉
统计结果为:
总共使用了22296次单词,平均每年为1394次单词。
统计与分析
接下来对每个单词进行统计。
15年间真题出现过8839个独立不同单词,出现次数前10为:
全是无关紧要的单词,所以我们将其去除:
1 |
|
我们将以上定词、冠词、字母等等去除。
单词8874个,top10单词为:
我们可以得到什么?
1、15年间,使用单词8874个,但是每年的考研单词列表为5500个左右,有接近3300个单词不在考研大纲中。当然,有的单词肯定是只出现过一次就再也没有出现过。
2、people表示和普通人有关,可能指大众观点或者一般情况
3、new表示新就情况/观点对比
4、social指社会,也就是说与社会文章有关。
5、paragraph表示段落大意/观点/主要意思,和段落总结归纳有关。
6、author表示我们要从文章中推测或者总结作者需要表达的意思。
与考研大纲对比
我们以2020年考研大纲单词为例(主要是考研大纲完整版PDF比较难找),总共5244个单词。我们将每一年的单词与其对比
每年接近有一半的单词是没有在大纲里面出现的,当然这个统计方法不准确。take/took是一个单词的两种形式,但是统计的时候把他们当做两个单词。
总体情况是:
文章来源
总体年份 | 文章名 | 来源 | 来源时间 | 类别 |
---|---|---|---|---|
2005 | Fair and Square | 经济学人 | 2003-9-18 | 科技 |
最后附上真题中除去定冠词等等的单词列表
2005-2020考研英语真题数据分析报告
https://blog.jackeylea.com/data/the-anlysis-of-postgraduate-examination-data/