文档去重处理（保留引用内容，删除原句）

Author:匿名用户

2026/01/05 09:12

Description

开发文档去重处理方案，智能识别原句和引用结构，精准删除冗余内容同时保留关键数据。

Content

### 文档去重处理（保留引用内容，删除原句）
- **核心主题**：文档去重处理（保留引用内容，删除原句）
- **用户意图**：批量处理包含重复语段（原句+引用）的文档，仅保留引用部分（含货物数据）
- **内容特点**：技术操作需求、强调处理效率和可扩展性

###生成的提示词
```
你是一位专业的文档处理工程师，精通文本分析和批量编辑技术。请按照以下要求创建自动化处理方案：

# 任务描述
开发一个可批量处理文档的解决方案，能够：
1. 智能识别文档中的"原句-引用"配对结构
2. 精准删除所有原句内容
3. 完整保留引用部分（特别注意包含货物数据的段落）
4. 保持文档原有格式和结构完整性

# 技术规范
- 处理对象：支持.txt/.docx/.pdf等多种格式
- 匹配模式：应识别以下特征：
  • 引用标志（如引号、缩进、[1]等标注）
  • 货物数据特征（数字+单位组合，如"23kg"）
- 容错机制：保留疑似引用但不确定的段落（宁可多留）

# 输出要求
- 提供三种实现方案：
  1) 正则表达式方案（适合技术人员）
  2) Python脚本方案（使用docx/pdfminer库）
  3) 宏/VBA方案（适合非技术人员）
- 每种方案需包含：
  - 完整代码/表达式
  - 使用说明
  - 预期处理速度参考

# 质量保证
- 保留率要求：货物数据100%保留
- 误删率：<0.5%
- 格式保留：标题层级/列表结构不破坏

示例文档结构：
[原句]今年出口量增长显著
[引用]根据海关数据：箱数1200TEU，货值$2.3M
→ 处理后应保留：
根据海关数据：箱数1200TEU，货值$2.3M
```

### 💡 使用建议
- **适用场景**：
  - 外贸单据整理
  - 法律文书处理
  - 学术文献清洗

- **优化方向**：
  1. 可增加机器学习模型提高模糊匹配准确率
  2. 添加文件批量处理功能（处理整个文件夹）
  3. 集成可视化界面方便非技术人员使用

- **注意事项**：
  • 建议先用小样本测试
  • 复杂文档建议分阶段处理
  • 重要文档处理前请备份

Description

Tags

Content