AI-powered content processing utilities for document archives.
ai/
├── __init__.py
├── gen.py # 主要内容生成器
├── gen_struct.py # 结构生成工具
└── archive/ # 档案元数据生成
├── __init__.py
├── gen_dir_meta.py # 目录元数据生成
├── gen_file_meta.py # 文件元数据生成
├── ignore.py # 忽略规则处理
└── utils.py # 工具函数
使用 OpenAI API 对文本内容进行清理和优化。
环境变量:
OPENAI_API_KEY- OpenAI API 密钥OPENAI_MODEL_NAME- 模型名称 (默认: gpt-4o-mini)OPENAI_TEMPERATURE- 温度参数 (默认: 0.7)
使用方法:
python ai/gen.py input.txt output.txt功能:
- 读取输入文件内容
- 调用 OpenAI API 进行内容清理/优化
- 将结果写入输出文件
生成文档结构信息。
为目录生成 AI 摘要和元数据。
为单个文件生成 AI 摘要和元数据。
处理需要忽略的文件规则。
原始文档
↓
[gen.py] AI 清理/优化
↓
[archive/gen_file_meta.py] 生成文件元数据
↓
[archive/gen_dir_meta.py] 生成目录摘要
↓
更新 config.yml
- openai
- python-dotenv
- pyyaml
- 需要设置 OPENAI_API_KEY 环境变量
- 大文件建议分批处理
- API 调用有速率限制