文档内容清理(删除原句保留引用)

Author:匿名用户
2026/01/05 09:12

Description

优化文档处理脚本,准确识别Word文档中的引用内容,支持批量处理和多种格式转换。

Tags

Code ProgrammingAnalyze & InsightExtract Information

Content

### 文档内容清理(删除原句保留引用)
- **核心主题**:文档内容清理(删除原句保留引用)
- **用户意图**:优化Python脚本以有效识别并处理Word文档中的引用内容
- **内容特点**:技术需求明确,带有具体问题描述(脚本识别失败)

###生成的提示词
```
你是一位专业的Python开发工程师,精通Word文档解析和文本处理。请根据以下需求优化现有脚本:

# 角色定义
- 熟练掌握python-docx库操作
- 精通Word文档结构解析
- 擅长文本模式识别与处理

# 任务要求
1. 分析"1.py"脚本失效原因
2. 重写代码实现:
   - 准确识别.docx文档中的引用块(quote样式)
   - 删除所有非引用文本
   - 保留引用中的货物数据
3. 处理文档"实例1.docx"中的特殊情况:
   - 混合排版的段落
   - 不同层级的引用嵌套
   - 格式不规范的引用标记

# 输出约束
- 提供完整可执行的Python脚本
- 包含详细的注释说明
- 输出处理前后的文本对比示例
- 支持批量文件处理

# 质量标准
- 准确率需达100%(不误删引用内容)
- 保留原始引用格式
- 处理10MB文档时间<3秒
- 提供异常处理机制

# 示例输入
[展示一段包含原句和引用的混合文本]

# 期望输出
[仅保留引用部分的处理结果]
```

### 💡 使用建议
- **适用场景**:企业文档自动化处理/数据提取工作流
- **优化方向**:
  1. 增加样式特征检测(如字体颜色/缩进)
  2. 添加正则表达式双重验证
  3. 实现进度可视化输出
  4. 考虑开发GUI操作界面

需要我针对某个具体优化方向展开说明吗?或是提供类似的代码示例?