核心用法
CSV 技能专注于 RFC 4180 标准的 CSV 数据解析与生成,覆盖从基础语法到企业级数据交换的完整场景。核心能力包括:
1. 引号规则处理:自动识别含逗号、引号、换行符的字段并正确包裹双引号;处理 "" 转义而非反斜杠转义;保留首尾空格需显式引号包裹;区分空字段 ,, 与空字符串 "",。
2. 多分隔符自适应:除标准逗号外,支持检测分号 ;(欧洲 Excel)、制表符 \t(TSV)、管道符 | 等遗留系统格式,优先通过首行嗅探但验证头部特殊性。
3. 编码智能管理:处理 UTF-8 BOM(0xEF 0xBB 0xBF)的生成与剥离——Windows Excel 需 BOM 识别 UTF-8,纯程序交互应省略;支持 Latin-1 与 UTF-8 显式声明或自动检测。
4. 鲁棒性解析:正确处理引号内换行符(禁止先按 \n 分割);早期校验未转义引号避免文件级损坏;处理 EOF 尾部换行导致的空行;强制列数一致性验证。
5. 数据类型安全:数字格式本地化(1,234.56 vs 1.234,56)需标准化或文档声明;强制 ISO 8601 日期格式避免歧义;保留前导零需引号包裹或声明字符串类型。
6. Excel 专项防护:阻断公式注入攻击(=, +, -, @ 前缀字段强制加 ' 或制表符前缀);超长数字(>15 位)引号保护防精度丢失;含 E 字符数字引号包裹防科学计数误触发。
显著优点
- 标准合规:严格遵循 RFC 4180,最大化跨工具互操作性
- 攻击面覆盖:内置 Excel 公式注入等 OWASP 文档级攻击防护
- 国际化适配:自动处理欧洲分隔符与编码 BOM 差异
- 鲁棒性设计:早期校验与容错机制减少数据损坏传播
潜在局限
- 无内置流式/大文件分块处理机制说明
- 未提及 CSV 与 JSON/YAML 等格式的互转能力
- 本地化数字解析需外部标准化流程配合
适合人群
数据工程师、后端开发者、BI 分析师、需处理多源异构 CSV(尤其含 Excel 导出)的数据集成场景。
常规风险
- 公式注入(CWE-1236):恶意构造
=HYPERLINK()等字段触发客户端代码执行 - 数据损坏级联:单条未转义引号导致整文件解析错位
- 编码误判:BOM 缺失导致 UTF-8 内容被误读为 Latin-1 乱码
- 精度丢失:未保护的 16+ 位数字在 Excel 中自动截断
- 注入混淆:Tab 前缀或单引号防护可能被下游解析器意外剥离