免费中文文本清洗工具。8 个可切换规则:合并空格、删除汉字间空格、统一换行符、合并空行、删零宽字符、标准化引号、删 Emoji、删 URL。
中文文本清洗
使用方法
选择规则
8 个规则可独立切换。默认前 5 个开启,后 3 个(引号、Emoji、URL)按需开启。
粘贴文本
即时清洗。可看到「前后」字符数和「节省」字符数。
复制结果
一键复制清洗后的文本到剪贴板。
与其他工具组合
本工具 + 简繁转换器 + 全角半角转换器 = 完整中文文本预处理工作流。
中文文本清洗:OCR、剪贴板、爬虫的常见问题
中文文本在跨工具流转时常带「脏数据」 — 多余空格、零宽字符(常被 Word、PDF 复制时插入)、智能引号、混排的全角半角等。这些视觉上看不见但破坏正式格式的问题,在以下场景尤其常见:
常见来源 + 清洗策略
(1) OCR 输出:汉字间常被错误插入空格(因为引擎按字符识别)。规则:开启「删除汉字间空格」。
(2) PDF / Word 剪贴:常带零宽字符(U+200B、U+FEFF 等),让文档「看起来一样,但代码不同」。规则:开启「删零宽字符」。
(3) 智能引号:Word 自动把 "..." 转 "..."(智能引号)。在 JSON、SQL、HTML 中会出问题。规则:开启「标准化引号」。
(4) 网页爬虫:常带多余空白、URL、Emoji。规则:开启相应过滤器。
处理顺序很重要
本工具按以下顺序处理:统一换行符 → 删零宽 → 删 URL → 删 Emoji → 标准化引号 → 删 CJK 间空格 → 合并空格 → 合并空行。顺序设计确保每个规则的输入是「干净的中间态」 — 这是规则化文本处理的标准做法。
隐私
所有处理在你的浏览器内完成。不向我们的服务器发送任何文本。即使输入是机密内容,也是完全安全的。
关于中文文本清洗的 10 个事实
零宽字符(U+200B、U+200C、U+200D、U+FEFF)是视觉上不可见的。Word、PDF、Notion 复制时常注入,但目视检查无法发现。
智能引号(""'')是 Word 默认设置 — 当你输入「"」时,Word 自动转换。在 JSON、SQL、命令行中会触发语法错误。
OCR 引擎(如 Tesseract)默认按字符分割识别 — 这就是为什么扫描的中文常变成「汉 字 之 间 有 空 格」。本工具的「删除 CJK 间空格」规则就是为此设计。
「正则表达式」是处理中文的关键技术。汉字范围 [一-鿿] (U+4E00 - U+9FFF) + 兼容扩展 [㐀-䶿] (U+3400 - U+4DBF) 共 27,000+ 字符。本工具的「CJK 间空格」规则就用了这两个范围。
U+FEFF(BOM,Byte Order Mark)是 UTF-8 文件的字节序标志。Windows 用 Notepad 保存时自动插入。Linux、Mac 工具会报错。本工具会把它和其他零宽字符一起删除。
Emoji 在中文文本中是「双字节字符」(占 4-8 字节 UTF-8)。如果数据库列宽不够,会导致截断错误。本工具的「删 Emoji」选项可批量清理。
Windows / Mac / Linux 用不同换行符:Windows = CRLF(\r\n)、Mac/Linux = LF(\n)、旧 Mac OS = CR(\r)。本工具统一为 LF — 跨平台兼容的标准。
「断行」与「分段」是两个概念。一个段落内可以有多个软换行(用 \n)。空行(\n\n)表示分段。本工具的「合并空行」规则保留 1 个空行作分段标志,删除多余空行。
「半角空格」与「全角空格」(U+3000)是不同字符。本工具的「合并空格」规则同时处理两者 — 把所有空白(普通空格、tab、全角空格、不间断空格)合并为单个普通空格。
本工具与 RT-CHN-037(简繁转换)、RT-CHN-038(全角半角)、RT-CHN-039(竖排)互补 — 完整的中文文本处理工具集。
常见问题
-
完全本地。所有处理在你的浏览器内完成,没有任何文本上传。即使输入是机密内容,也是 100% 安全的。
-
前 5 个:合并空格、删 CJK 间空格、统一换行符、合并空行、删零宽字符。这些是无副作用的「安全清洗」。后 3 个(引号、Emoji、URL)按需开启 — 可能改变意思,故默认关。
-
不会。规则严格限定为两个 CJK 字符之间的空格 — 如「汉 字」会变「汉字」,但「I love 中文」保持不变。
-
保留 1 个空行(作为分段标志)。删除多余的(3 个或更多变 1 个)。这保持段落结构,删冗余。
-
弯引号 "" 转直引号 " " ;弯单引号 '' 转直单引号 ' '。Word 的「智能引号」是 JSON、SQL 错误的常见来源 — 此规则修复。
-
覆盖主流 Emoji 范围:U+1F300-U+1FAFF(Emoji 主块)、U+2600-U+27BF(符号 + 方位标志)、U+1F600-U+1F64F(表情)。少数边角 Emoji 可能漏掉。
-
强烈建议。零宽字符、混排空格、智能引号都会导致「查询查不到」的诡异 bug。生产环境的中文文本输入都应该经过类似清洗。
-
原文保留在左侧的输入框中,不会被覆盖。你可以随时编辑、调整规则、对比前后效果。结果(右侧)是只读的。
-
全开。PDF 通常含:零宽字符、错位空格、智能引号、可能的 Emoji 或 URL。本工具的「全部开启」配置正适合 PDF 文本清洗。
-
仅开启前 5 个「无副作用」规则。不开「标准化引号」(可能修改字符串值)、不开「删 Emoji / URL」(可能含代码相关内容)。
Related News
You may be interested in these recent stories from our newsroom.
No related news yet for this tool. Our editorial team publishes new pieces every week.
Browse all news →75 more free tools
Calculators, converters, security tools — no signup.