File processing utilities for archive management.
file/
├── __init__.py
├── add_config_from_page.py # 从页面提取配置
├── add_config.py # 添加文件到配置
├── encoding/ # 编码处理
│ ├── encoding.py
│ ├── encoding_simple.py
│ └── fix_encoding.sh
├── gen_search_index.py # 生成搜索索引
├── ignore.py # 文件忽略规则
├── notice/ # 通知处理
│ ├── add_notice_txt.py
│ └── notice.py
├── rename.py # 文件重命名
└── translate/ # 翻译工具
└── translate.py
将新文件添加到目录的 config.yml 中。
功能:
- 扫描目录中的新文件
- 自动提取文件元数据(大小、MD5、类型)
- 更新 config.yml
使用方法:
python -m file.add_config处理各种文本编码问题。
自动检测和转换文件编码。
批量修复编码的 shell 脚本。
使用方法:
bash file/encoding/fix_encoding.sh生成全站搜索索引。
功能:
- 遍历所有 config.yml
- 提取文件元数据和内容摘要
- 生成搜索索引文件
输出: 搜索索引 JSON
管理需要忽略的文件列表。
默认忽略:
- 临时文件
- 系统文件
- 已处理文件
发送处理通知。
添加通知文本到文件。
批量重命名文件,统一命名规范。
文档翻译工具。
功能:
- 调用翻译 API
- 保持格式不变
- 生成双语对照
| 扩展名 | 类型 | 处理方式 |
|---|---|---|
| document | 生成页面 | |
| .md | markdown | 直接处理 |
| .txt | text | 编码转换 |
| .epub | ebook | 转换处理 |
| .doc/.docx | document | 转换处理 |
新文件加入
↓
[add_config.py] 提取元数据
↓
[encoding/*] 编码检查/修复
↓
更新 config.yml
↓
[gen_search_index.py] 更新搜索索引
↓
[notice/*] 发送通知
- pyyaml
- chardet (编码检测)
- requests (翻译 API)