免费汉字使用频率查询。前 200 个高频字 + 累计覆盖率。基于 Jun Da 现代语料库数据(公有领域)。
汉字使用频率
使用方法
查看前 50 字
立即看到最高频的 50 个汉字 — 这 50 个字覆盖近 35% 的现代汉语文本。
按字搜索
输入汉字、拼音或英文意思 — 工具返回排名 + 累计覆盖率。
评估文本难度
写文章时,检查所用字的排名分布 — 越多高频字越易读。
优先学习高频字
初学者应先掌握前 200 字 — 阅读能力提升最快的途径。
汉字频率:为什么前 1000 字如此重要
汉字频率分布遵循齐普夫定律(Zipf\'s Law):少数字出现极其频繁,大多数字几乎从不出现。具体到现代汉语:前 100 字覆盖文本 42%,前 1000 字覆盖 91%,前 3500 字覆盖 99.5%。掌握前 3500 字基本可以读懂报纸、小说、官方文件。
这意味着什么
对学习者来说,这是惊人的学习效率杠杆:每个高频字带来的阅读能力提升,远远超过低频字。一个掌握前 500 字的人,其阅读能力大约是掌握前 3500 字的 80%。这就是 HSK 等教育机构按频率排序词表的原因。
语料库与频率统计
现代汉字频率统计来自语料库(corpus)分析 — 收集大量现代汉语文本(报纸、小说、网络、官方文件),统计每个字出现次数。Jun Da(段俊)教授于 1990 年代整理的「现代汉语单字频率列表」是最广泛使用的开源数据,本工具的数据基于此。
注意:不同语料库(新闻 vs 文学 vs 网络聊天)的频率排名会有差异。本工具采用 Jun Da 的现代综合语料库数据。
关于汉字频率的 10 个事实
「的」是中文最高频字,占现代汉语文本约 4.1%。每 24 个字中就有 1 个「的」。
前 10 字覆盖现代汉语 9% 的文本:的、一、是、不、了、在、人、有、我、他。学完这 10 字,每读 11 个字中已有 1 个认识。
齐普夫定律(Zipf's Law)在汉字频率分布中表现极强 — 排名 N 的字出现频率大约是排名 1 字的 1/N。这一规律在英语、法语、西班牙语等几乎所有自然语言中都成立。
前 1000 字覆盖现代汉语 91% 的文本。前 3500 字覆盖 99.5%。学习者掌握前 3500 字基本可以阅读绝大多数现代中文材料。
中国教育部规定,中小学应教授 3500 个常用字。这一数字基于频率分析 — 它对应日常阅读 99.5% 覆盖率。
汉字总数远不止 3500。《康熙字典》收录 4.7 万字,《汉语大字典》收 5.5 万字,中文电脑标准 Unicode CJK 收 9.7 万+ 字。但绝大多数是历史字、人名地名字、专业术语字,现代日常几乎不用。
同字在不同语料中频率不同。新闻报道中「政」「济」「府」频率高;古典文学中「之」「乎」「也」频率高;网络聊天中「啊」「呢」「哈」频率高。本工具采用综合语料库数据。
简体 vs 繁体不影响频率(一一对应),但笔画数差异巨大。「龍 → 龙」(16→5 画)、「邊 → 边」(19→5 画)。这就是简化的初衷 — 让最高频字最易书写。
识字 vs 写字差异很大。受过教育的中国人能识 4000-6000 字,但能独立写(无电脑无字典)的可能只有 2500-3500。「输入法依赖」是一个真实的现代汉语学习现象。
本工具与 RT-CHN-031(成语词典)、RT-CHN-032(HSK 词汇)互补 — 是系统化中文学习的三个支柱。
常见问题
-
Jun Da(段俊)教授整理的「现代汉语单字频率列表」,基于多个来源的现代中文文本语料库统计。这是中文计算语言学领域最常引用的公有领域数据集之一。
-
语料决定排名。新闻语料中「政」「济」高频,文学语料中「云」「叶」高频,网络聊天「啊」「哈」高频。Jun Da 的数据是综合性的,但仍偏向 1990 年代的文本特征。
-
是的,这一比例在多个独立语料库中得到验证。这是齐普夫定律(Zipf's Law)的体现 — 一个适用于几乎所有自然语言的统计规律。
-
大方向是,细节上不一定。最高频字应优先,但学习也应考虑语义聚类(亲属字一起学:父母兄弟姐)、构件相似(月、明、朋、肝)。HSK 课程兼顾频率与学习心理。
-
看用途。日常阅读不必学习。但古典文学、医药、法律、人名地名等专业领域需要。例如「鼎」「鼐」是低频字但在历史文献中频繁出现。
-
简单加法:对前 N 个字的单字出现率求和。例如,前 3 个字(的、一、是)的出现率分别是 4.1%、1.7%、1.2%,累计 7.0%。意味着懂这 3 字,任何文本中你都认识 7% 的字符。
-
基本相同,因为大多数字是一一对应的(简「龙」对应繁「龍」)。但少数情况:有些简体字对应多个繁体字(如「干」对应繁「乾、幹、干」),会影响排名。本工具基于现代简体语料。
-
核心高频字几乎一致(的、一、是 — 都是 top 3)。差异在中频区(排名 200-2000)— 不同地区的文化、行业、新闻话题不同。但学习上,前 1000 字几乎通用。
-
影响输入法的设计,不影响真实字频。拼音输入法会优先显示高频字,五笔输入法按字根编码 — 但人们打字时实际用的字仍是高频的(因为日常表达需求决定字频)。
-
目前使用 Jun Da 1990s 数据(2004 年更新)。核心高频字几十年保持稳定,但中低频区可能变化。计划未来纳入更近期的语料库数据。
Related News
You may be interested in these recent stories from our newsroom.
No related news yet for this tool. Our editorial team publishes new pieces every week.
Browse all news →75 more free tools
Calculators, converters, security tools — no signup.