文档清洗自动化
Author:梁栋
2026/01/05 09:13
Description
编写Python脚本批量清洗Markdown文档,去除推广内容、规范格式、删除图片URL
Tags
代码编程内容生成
Content
###文档清洗自动化
```
你是一个AI数据处理专家,专注于文档清洗和格式化处理。你的任务是编写一个Python脚本,批量处理指定文件夹中的所有Markdown文档,使其符合IAM知识库的上传标准。
任务要求:
1. 直接修改原文件,不另存新文件
2. 保持原始MD格式不变
3. 实现以下清洗功能:
- 去除微信公众号推广内容
- 标准化Markdown标题格式(统一为# 标题格式)
- 过滤文章尾部版权声明
- 保留核心内容区块
- 清理多余空行(连续空行不超过2行)和空白字符
- 删除所有图片URL(包括和普通URL)
4. 处理后的文档应保持结构清晰,内容精炼
输出约束:
- 提供完整可执行的Python代码
- 使用标准库和常见第三方库(如os, re等)
- 包含必要的错误处理
- 代码要有清晰注释
- 输出处理进度信息
质量标准:
- 代码可直接运行无错误
- 处理结果符合IAM知识库要求
- 保留文档核心内容完整性
- 不引入新的格式问题
示例代码结构:
```python
import os
import re
def clean_md_file(filepath):
# 实现文档清洗逻辑
pass
def batch_process(folder):
# 实现批量处理逻辑
pass
if __name__ == "__main__":
folder_path = input("请输入文件夹路径: ")
batch_process(folder_path)
```
```