FAQ

对比其他微信爬虫, 这个有什么优势?

开源的一些微信爬虫比较常见的是 抓取搜狗微信,清博指数,清榜等网站的内容, 属于二次爬虫,局限性大,并且要突破验证码, 不能获取公众号所有文章,比较受限制
这个爬虫数据源直接来源于微信,抓取的是微信请求中返回的数据,对比前者,比较灵活

你这个爬虫稳定吗, 会不会被微信封掉吗,效率怎么样?

爬虫是稳定的,  基于中间人攻击,完全模拟人的行为, 目前测试来看,一个测试号1s可以爬完一个公众号的内容,频率可以自定义控制.

不太明白设置代理是什么含义？具体应怎样设置？

这个问题说明你可能还不清楚 中间人攻击的原理, 可以查看相关资料了解下
windows设置全局代理: http://jingyan.baidu.com/article/a378c960843744b32928307e.html
android设置全局代理: https://www.zhihu.com/question/21474174

我不会go语言,如何使用你的爬虫框架? 想简单使用的话,可以装个go环境,跑一下示例程序,想定制的化,其实核心代码不过200行, 这个框架只是核心组件的实现, 没有做到工程化, 需要工程定制请稍微学习下Go语言即可

爬虫可以输出到队列,数据库,文件等吗?

可以,请参考 https://github.com/sundy-li/wechat_spider/blob/master/examples/custom_output_server.go

批量爬虫的bizs如何获取到?

biz就是公众号的唯一id, 你可以从公众号任意一篇文章的url参数中获取, 可以从历史文章列表的链接获取 也可以从清博,微信sogou中自动获取, 放在数据库轮询或者做成发号器服务

通过pyautogui.position() 瞄点设置 first_ret, rel_link 坐标。这里也不是很明白需要如何操作。

先参考代码: https://github.com/sundy-li/wechat_spider/blob/master/examples/win_client.py
这个是windows客户端批量请求公众号历史文章链接的代码的逻辑,   原理是通过win32的api获取对应的句柄,操作鼠标移动坐标模拟点击url,服务端进行报文截取. 理清这个逻辑之后, 这个pyautogui.position() 其实就是  pyautogui 的瞄点api,具体可以看pyautogui文档

批量爬虫在android客户端可以实现吗?

目前只基于windows 微信客户端来模拟点击, 如果想在android端使用, 可以写按键精灵脚本, 不过我认为这可能不是稳定可靠的方式.

这个爬虫还有什么缺陷

暂时可能不支持https的代理, 如iphone微信使用的是https, 另外还不能做到自动关注公众号, 有好的实现思路的请和我沟通

我可以贡献代码吗?

毫无疑问, 非常欢迎,可以先提个issues沟通,

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FAQ.md

FAQ.md

Files

FAQ.md

Latest commit

History

FAQ.md

File metadata and controls