主列表识别（ischannel）

关于我简书：Tony带不带水邮箱：[email protected]
欢迎关注联系合作

此项目下代码为简化列表识别代码，功能为提取主列表元素，爬虫相关。

结果示例:

红色区域为识别结果。

下载安装适用

将本项目代码置于同一目录下。安装依赖库

pip install -r requirements.txt

运行demo代码

python yourPath/find_channel.py

demo中识别的url为https://www.jianshu.com/u/83c7ce3fa495,将输出主列表xpath

接口说明

is_channel_judge
- 判断当前页是否为频道（有且只有一个主列表的定义为频道）
- 返回值[ [isChannel(bool, 是否为频道页), hasMore(bool)], [listXpath(string)] ]
get_list_xpath
- 若是列表的话返回主列表Xpath
- 返回值[ [listXpath(string)] ]

注意事项

基于python3
由于需要取位置信息，基于浏览器，项目中使用的是Chrome，在driver_common.py可以自行更改
支持chrmoe的headless模式
如果你运行不成功请检查你是否能正常初始化浏览器
若还有问题请发邮件给我

TODO

如有时间会继续维护优化此代码，也欢迎大家提交维护，代码中注释比较详细。优化或重构一下方面：

列表扫描方法
某些过滤条件（类似列表中有图片等等），考虑提取链接特征来优化

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
LICENSE		LICENSE
README.md		README.md
driver_common.py		driver_common.py
find_channel.py		find_channel.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

主列表识别（ischannel）

结果示例:

下载安装适用

接口说明

注意事项

TODO

About

Releases

Packages

Languages

License

lhzhangLyon/isChannel

Folders and files

Latest commit

History

Repository files navigation

主列表识别（ischannel）

结果示例:

下载安装适用

接口说明

注意事项

TODO

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages