免費漢字使用頻率查詢。前 200 個高頻字 + 累計覆蓋率。基於 Jun Da 現代語料庫數據(公有領域)。
漢字使用頻率
使用方法
查看前 50 字
立即看到最高頻的 50 個漢字 — 這 50 個字覆蓋近 35% 的現代漢語文本。
按字搜索
輸入漢字、拼音或英文意思 — 工具返回排名 + 累計覆蓋率。
評估文本難度
寫文章時,檢查所用字的排名分布 — 越多高頻字越易讀。
優先學習高頻字
初學者應先掌握前 200 字 — 閱讀能力提升最快的途徑。
漢字頻率:為什麼前 1000 字如此重要
漢字頻率分布遵循齊普夫定律(Zipf\'s Law):少數字出現極其頻繁,大多數字幾乎從不出現。具體到現代漢語:前 100 字覆蓋文本 42%,前 1000 字覆蓋 91%,前 3500 字覆蓋 99.5%。掌握前 3500 字基本可以讀懂報紙、小說、官方文件。
這意味著什麼
對學習者來說,這是驚人的學習效率槓桿:每個高頻字帶來的閱讀能力提升,遠遠超過低頻字。一個掌握前 500 字的人,其閱讀能力大約是掌握前 3500 字的 80%。這就是 HSK 等教育機構按頻率排序詞表的原因。
語料庫與頻率統計
現代漢字頻率統計來自語料庫(corpus)分析 — 收集大量現代漢語文本(報紙、小說、網絡、官方文件),統計每個字出現次數。Jun Da(段俊)教授於 1990 年代整理的「現代漢語單字頻率列表」是最廣泛使用的開源數據,本工具的資料基於此。
注意:不同語料庫(新聞 vs 文學 vs 網絡聊天)的頻率排名會有差異。本工具採用 Jun Da 的現代綜合語料庫資料。
關於漢字頻率的 10 個事實
「的」是中文最高頻字,佔現代漢語文本約 4.1%。每 24 個字中就有 1 個「的」。
前 10 字覆蓋現代漢語 9% 的文本:的、一、是、不、了、在、人、有、我、他。學完這 10 字,每讀 11 個字中已有 1 個認識。
齊普夫定律(Zipf's Law)在漢字頻率分布中表現極強 — 排名 N 的字出現頻率大約是排名 1 字的 1/N。這一規律在英語、法語、西班牙語等幾乎所有自然語言中都成立。
前 1000 字覆蓋現代漢語 91% 的文本。前 3500 字覆蓋 99.5%。學習者掌握前 3500 字基本可以閱讀絕大多數現代中文材料。
中國教育部規定,中小學應教授 3500 個常用字。這一數字基於頻率分析 — 它對應日常閱讀 99.5% 覆蓋率。
漢字總數遠不止 3500。《康熙字典》收錄 4.7 萬字,《漢語大字典》收 5.5 萬字,中文電腦標準 Unicode CJK 收 9.7 萬+ 字。但絕大多數是歷史字、人名地名字、專業術語字,現代日常幾乎不用。
同字在不同語料中頻率不同。新聞報道中「政」「濟」「府」頻率高;古典文學中「之」「乎」「也」頻率高;網絡聊天中「啊」「呢」「哈」頻率高。本工具採用綜合語料庫資料。
簡體 vs 繁體不影響頻率(一一對應),但筆畫數差異巨大。「龍 → 龙」(16→5 畫)、「邊 → 边」(19→5 畫)。這就是簡化的初衷 — 讓最高頻字最易書寫。
識字 vs 寫字差異很大。受過教育的中國人能識 4000-6000 字,但能獨立寫(無電腦無字典)的可能只有 2500-3500。「輸入法依賴」是一個真實的現代漢語學習現象。
本工具與 RT-CHN-031(成語詞典)、RT-CHN-032(HSK 詞彙)互補 — 是系統化中文學習的三個支柱。
常見問題
-
Jun Da(段俊)教授整理的「現代漢語單字頻率列表」,基於多個來源的現代中文文本語料庫統計。這是中文計算語言學領域最常引用的公有領域資料集之一。
-
語料決定排名。新聞語料中「政」「濟」高頻,文學語料中「雲」「葉」高頻,網絡聊天「啊」「哈」高頻。Jun Da 的資料是綜合性的,但仍偏向 1990 年代的文本特徵。
-
是的,這一比例在多個獨立語料庫中得到驗證。這是齊普夫定律(Zipf's Law)的體現 — 一個適用於幾乎所有自然語言的統計規律。
-
大方向是,細節上不一定。最高頻字應優先,但學習也應考慮語義聚類(親屬字一起學:父母兄弟姐)、構件相似(月、明、朋、肝)。HSK 課程兼顧頻率與學習心理。
-
看用途。日常閱讀不必學習。但古典文學、醫藥、法律、人名地名等專業領域需要。例如「鼎」「鼐」是低頻字但在歷史文獻中頻繁出現。
-
簡單加法:對前 N 個字的單字出現率求和。例如,前 3 個字(的、一、是)的出現率分別是 4.1%、1.7%、1.2%,累計 7.0%。意味著懂這 3 字,任何文本中你都認識 7% 的字符。
-
基本相同,因為大多數字是一一對應的(簡「龍」對應繁「龙」)。但少數情況:有些簡體字對應多個繁體字(如「干」對應繁「乾、幹、干」),會影響排名。本工具基於現代簡體語料。
-
核心高頻字幾乎一致(的、一、是 — 都是 top 3)。差異在中頻區(排名 200-2000)— 不同地區的文化、行業、新聞話題不同。但學習上,前 1000 字幾乎通用。
-
影響輸入法的設計,不影響真實字頻。拼音輸入法會優先顯示高頻字,五筆輸入法按字根編碼 — 但人們打字時實際用的字仍是高頻的(因為日常表達需求決定字頻)。
-
目前使用 Jun Da 1990s 資料(2004 年更新)。核心高頻字幾十年保持穩定,但中低頻區可能變化。計劃未來納入更近期的語料庫資料。
Related News
You may be interested in these recent stories from our newsroom.
No related news yet for this tool. Our editorial team publishes new pieces every week.
Browse all news →75 more free tools
Calculators, converters, security tools — no signup.