20、正则表达式常见误用与防御策略

范先生2000/1/20大约 2 分钟

正则表达式常见误用与防御策略

错误使用正则表达式可能导致性能问题、安全漏洞以及维护成本飙升。本篇列举常见反模式，并给出可行的修复方案。

问题：.* 会吞噬所有字符，导致匹配不受控，甚至误伤合法输入。

解决：用精确的字符类替代，例如 [^\s]、[A-Za-z0-9_]；必要时加入非贪婪量词与锚点。

/(\w+)*$/

在长字符串上执行可能导致灾难性回溯。应当拆分逻辑或使用占有量词：

/(?>\w+)*$/ // PCRE、Java 支持

或通过循环解析替代单个正则。

直接将用户输入拼接到正则表达式中容易导致 ReDoS 或错误匹配。

正则不适合处理层级嵌套结构（如 JSON、XML）。应使用专门的解析器，正则仅负责初步筛选或前置校验。

在 Node.js 中，复杂正则可能阻塞事件循环；在 Java 中，过多回溯会消耗大量 CPU。建议：

正则表达式强大却也容易被滥用。通过识别反模式、加强审查与监控，可以在享受正则带来效率的同时规避潜在风险。