关于我 简书:Tony带不带水 邮箱:[email protected]
欢迎关注联系合作
此项目下代码为简化列表识别代码,功能为提取主列表元素,爬虫相关。
###原理说明 Python爬虫:细说列表识别提取
将本项目代码置于同一目录下。 安装依赖库
pip install -r requirements.txt
运行demo代码
python yourPath/find_channel.py
demo中识别的url为https://www.jianshu.com/u/83c7ce3fa495,将输出主列表xpath
- is_channel_judge
- 判断当前页是否为频道(有且只有一个主列表的定义为频道)
- 返回值[ [isChannel(bool, 是否为频道页), hasMore(bool)], [listXpath(string)] ]
- get_list_xpath
- 若是列表的话返回主列表Xpath
- 返回值[ [listXpath(string)] ]
- 基于python3
- 由于需要取位置信息,基于浏览器,项目中使用的是Chrome,在driver_common.py可以自行更改
- 支持chrmoe的headless模式
- 如果你运行不成功请检查你是否能正常初始化浏览器
- 若还有问题请发邮件给我
如有时间会继续维护优化此代码,也欢迎大家提交维护,代码中注释比较详细。 优化或重构一下方面:
- 列表扫描方法
- 某些过滤条件(类似列表中有图片等等),考虑提取链接特征来优化