作者 | 邮箱 |
---|---|
liberty | [email protected] |
批量爬取抖音视频
- 使用 Python 编写爬虫部分;
- 使用 Node.js 执行 js 代码,生成加密参数,通过 web 服务的形式,提供给爬虫文件使用;
douyin.py #爬虫文件
douyin_signature.js #抖音 _signature 参数生成文件
get_signa.js #express web框架入口文件
tac # 可以从 PC 端用户主页 HTMl 源码中获取到
user_id # 用户主页 url 中获取
userAgent # 请求头中获取
#douyin_signature.js
该文件中的 userAgent 要和 douyin.py 中的 self.headers 保持一致,否则生成到 _signature 不可用
获取到有水印视频地址之后,更换 userAgent 为移动端,发起请求,即可获取无水印视频。
Python 3.7
NodeJs 12.16.1
- requests
- express
- jsdom
- canvas
- 使用
Nodejs
运行get_signa.js
,启动web
服务; - 执行
douyin.py
开始爬取。