免費中文文本清洗工具。8 個可切換規則:合併空格、刪除漢字間空格、統一換行符、合併空行、刪零寬字符、標準化引號、刪 Emoji、刪 URL。
中文文本清洗
使用方法
選擇規則
8 個規則可獨立切換。默認前 5 個開啟,後 3 個(引號、Emoji、URL)按需開啟。
貼上文本
即時清洗。可看到「前後」字符數和「節省」字符數。
複製結果
一鍵複製清洗後的文本到剪貼板。
與其他工具組合
本工具 + 簡繁轉換器 + 全角半角轉換器 = 完整中文文本預處理工作流。
中文文本清洗:OCR、剪貼板、爬蟲的常見問題
中文文本在跨工具流轉時常帶「髒資料」 — 多餘空格、零寬字符(常被 Word、PDF 複製時插入)、智能引號、混排的全角半角等。這些視覺上看不見但破壞正式格式的問題,在以下場景尤其常見:
常見來源 + 清洗策略
(1) OCR 輸出:漢字間常被錯誤插入空格(因為引擎按字符識別)。規則:開啟「刪除漢字間空格」。
(2) PDF / Word 剪貼:常帶零寬字符(U+200B、U+FEFF 等),讓文檔「看起來一樣,但代碼不同」。規則:開啟「刪零寬字符」。
(3) 智能引號:Word 自動把 "..." 轉 "..."(智能引號)。在 JSON、SQL、HTML 中會出問題。規則:開啟「標準化引號」。
(4) 網頁爬蟲:常帶多餘空白、URL、Emoji。規則:開啟相應過濾器。
處理順序很重要
本工具按以下順序處理:統一換行符 → 刪零寬 → 刪 URL → 刪 Emoji → 標準化引號 → 刪 CJK 間空格 → 合併空格 → 合併空行。順序設計確保每個規則的輸入是「乾淨的中間態」 — 這是規則化文本處理的標準做法。
隱私
所有處理在你的瀏覽器內完成。不向我們的伺服器發送任何文本。即使輸入是機密內容,也是完全安全的。
關於中文文本清洗的 10 個事實
零寬字符(U+200B、U+200C、U+200D、U+FEFF)是視覺上不可見的。Word、PDF、Notion 複製時常注入,但目視檢查無法發現。
智能引號(""'')是 Word 默認設置 — 當你輸入「"」時,Word 自動轉換。在 JSON、SQL、命令行中會觸發語法錯誤。
OCR 引擎(如 Tesseract)默認按字符分割識別 — 這就是為什麼掃描的中文常變成「漢 字 之 間 有 空 格」。本工具的「刪除 CJK 間空格」規則就是為此設計。
「正則表達式」是處理中文的關鍵技術。漢字範圍 [一-鿿] (U+4E00 - U+9FFF) + 相容擴展 [㐀-䶿] (U+3400 - U+4DBF) 共 27,000+ 字符。本工具的「CJK 間空格」規則就用了這兩個範圍。
U+FEFF(BOM,Byte Order Mark)是 UTF-8 文件的字節序標誌。Windows 用 Notepad 保存時自動插入。Linux、Mac 工具會報錯。本工具會把它和其他零寬字符一起刪除。
Emoji 在中文文本中是「雙字節字符」(佔 4-8 字節 UTF-8)。如果資料庫列寬不夠,會導致截斷錯誤。本工具的「刪 Emoji」選項可批量清理。
Windows / Mac / Linux 用不同換行符:Windows = CRLF(\r\n)、Mac/Linux = LF(\n)、舊 Mac OS = CR(\r)。本工具統一為 LF — 跨平台相容的標準。
「斷行」與「分段」是兩個概念。一個段落內可以有多個軟換行(用 \n)。空行(\n\n)表示分段。本工具的「合併空行」規則保留 1 個空行作分段標誌,刪除多餘空行。
「半角空格」與「全角空格」(U+3000)是不同字符。本工具的「合併空格」規則同時處理兩者 — 把所有空白(普通空格、tab、全角空格、不間斷空格)合併為單個普通空格。
本工具與 RT-CHN-037(簡繁轉換)、RT-CHN-038(全角半角)、RT-CHN-039(豎排)互補 — 完整的中文文本處理工具集。
常見問題
-
完全本地。所有處理在你的瀏覽器內完成,沒有任何文本上傳。即使輸入是機密內容,也是 100% 安全的。
-
前 5 個:合併空格、刪 CJK 間空格、統一換行符、合併空行、刪零寬字符。這些是無副作用的「安全清洗」。後 3 個(引號、Emoji、URL)按需開啟 — 可能改變意思,故默認關。
-
不會。規則嚴格限定為兩個 CJK 字符之間的空格 — 如「漢 字」會變「漢字」,但「I love 中文」保持不變。
-
保留 1 個空行(作為分段標誌)。刪除多餘的(3 個或更多變 1 個)。這保持段落結構,刪冗餘。
-
彎引號 "" 轉直引號 " " ;彎單引號 '' 轉直單引號 ' '。Word 的「智能引號」是 JSON、SQL 錯誤的常見來源 — 此規則修復。
-
覆蓋主流 Emoji 範圍:U+1F300-U+1FAFF(Emoji 主塊)、U+2600-U+27BF(符號 + 方位標誌)、U+1F600-U+1F64F(表情)。少數邊角 Emoji 可能漏掉。
-
強烈建議。零寬字符、混排空格、智能引號都會導致「查詢查不到」的詭異 bug。生產環境的中文文本輸入都應該經過類似清洗。
-
原文保留在左側的輸入框中,不會被覆蓋。你可以隨時編輯、調整規則、對比前後效果。結果(右側)是只讀的。
-
全開。PDF 通常含:零寬字符、錯位空格、智能引號、可能的 Emoji 或 URL。本工具的「全部開啟」配置正適合 PDF 文本清洗。
-
僅開啟前 5 個「無副作用」規則。不開「標準化引號」(可能修改字符串值)、不開「刪 Emoji / URL」(可能含代碼相關內容)。
Related News
You may be interested in these recent stories from our newsroom.
No related news yet for this tool. Our editorial team publishes new pieces every week.
Browse all news →75 more free tools
Calculators, converters, security tools — no signup.