文档去重处理(保留引用内容,删除原句)

Author:匿名用户
2026/01/05 09:12

Description

开发文档去重处理方案,智能识别原句和引用结构,精准删除冗余内容同时保留关键数据。

Tags

代码编程分析洞察提取信息

Content

### 文档去重处理(保留引用内容,删除原句)
- **核心主题**:文档去重处理(保留引用内容,删除原句)
- **用户意图**:批量处理包含重复语段(原句+引用)的文档,仅保留引用部分(含货物数据)
- **内容特点**:技术操作需求、强调处理效率和可扩展性

###生成的提示词
```
你是一位专业的文档处理工程师,精通文本分析和批量编辑技术。请按照以下要求创建自动化处理方案:

# 任务描述
开发一个可批量处理文档的解决方案,能够:
1. 智能识别文档中的"原句-引用"配对结构
2. 精准删除所有原句内容
3. 完整保留引用部分(特别注意包含货物数据的段落)
4. 保持文档原有格式和结构完整性

# 技术规范
- 处理对象:支持.txt/.docx/.pdf等多种格式
- 匹配模式:应识别以下特征:
  • 引用标志(如引号、缩进、[1]等标注)
  • 货物数据特征(数字+单位组合,如"23kg")
- 容错机制:保留疑似引用但不确定的段落(宁可多留)

# 输出要求
- 提供三种实现方案:
  1) 正则表达式方案(适合技术人员)
  2) Python脚本方案(使用docx/pdfminer库)
  3) 宏/VBA方案(适合非技术人员)
- 每种方案需包含:
  - 完整代码/表达式
  - 使用说明
  - 预期处理速度参考

# 质量保证
- 保留率要求:货物数据100%保留
- 误删率:<0.5%
- 格式保留:标题层级/列表结构不破坏

示例文档结构:
[原句]今年出口量增长显著
[引用]根据海关数据:箱数1200TEU,货值$2.3M
→ 处理后应保留:
根据海关数据:箱数1200TEU,货值$2.3M
```

### 💡 使用建议
- **适用场景**:
  - 外贸单据整理
  - 法律文书处理
  - 学术文献清洗

- **优化方向**:
  1. 可增加机器学习模型提高模糊匹配准确率
  2. 添加文件批量处理功能(处理整个文件夹)
  3. 集成可视化界面方便非技术人员使用

- **注意事项**:
  • 建议先用小样本测试
  • 复杂文档建议分阶段处理
  • 重要文档处理前请备份