2020最新最稳微信公众号爬虫(新) - 新闻资讯 - 云南小程序开发|云南软件开发|云南网站建设-昆明葵宇信息科技有限公司

159-8711-8523

云南网建设/小程序开发/软件开发

知识

不管是网站,软件还是小程序,都要直接或间接能为您产生价值,我们在追求其视觉表现的同时,更侧重于功能的便捷,营销的便利,运营的高效,让网站成为营销工具,让软件能切实提升企业内部管理水平和效率。优秀的程序为后期升级提供便捷的支持!

您当前位置>首页 » 新闻资讯 » 公众号相关 >

2020最新最稳微信公众号爬虫(新)

发表时间:2020-11-3

发布人:葵宇科技

浏览次数:49

一、公众号抓取来源

1、搜狗预览器抓取:公众号搜索功能,不过现在已经关闭入口了。

2、通过个人公众号来抓取微信文章,缺点cookies易过期,且频率过高时会进行封账号处理。

3、通过监听微信app公众号插入数据库操作进行监听,获取公众号信息发送到自建服务器上,优点是实时性强,且抓取链接为永久链接,目前封号率很高

4、通过DLL注入PC微信监听微信公众号推送,实时抓取。优点是可以多开,且封号率几乎为0!

二、DLL注入原理

所谓DLL注入就是将一个DLL放进某个进程的地址空间里,让它成为那个进程的一部分。要实现DLL注入。

软件的内部

软件 = 代码 + 数据

数据 = 静态数据 (数据不会变)+ 动态数据 (数据会改变)

动态数据 = 全局数据 (多个函数共用)+ 局部数据(单个函数私有)

代码和静态数据在软件运行过程不会改变,位置固定,可以方便使用。

全局数据,因为是共用的,位置固定,也可以方便使用。

所以这三种的偏移是不变的。

内存地址 = 基址 + 偏移。

基址可以用GetModuleHandle得知。

偏移又是不变的,内存地址也就可以算出来了 。

而偏移会变化的局部数据,就不能直接算出来了。

局部数据,是软件运行过程中,临时生成又销毁的。

所以要获取局部数据,只能在软件的运行过程进行拦截。(也就是所谓的HOOK)

三、软件运行

通过注入DLL获取PC客户端数据,当收到消息信息时进行转发到python客户端。在这里插入图片描述在这里插入图片描述

监听到信息msg"111114414",同样通过监听获取到公众号信息。

[on_recv] client_id: 1, message_type: 11054, message:{“from_wxid”: “gh_3219e59b249a”, “is_pc”: 0, “msgid”: “7990612437219863968”, “raw_msg”: “\n <appmsg appid=”" sdkver=“0”>\n <![CDATA[\u8b66\u949f\uff01\u9694\u79bb\u4e09\u4e2a\u6708\u540e\u590d\u9633\uff0c\u66fe\u53c2\u52a0\u5a5a\u793c\uff01\u4e13\u5bb6\u89e3\u8bfb\u2026\u2026]]>\n <![CDATA[]]>\n \n 5\n 1\n <![CDATA[]]>\n 0\n <![CDATA[http://mp.weixin.qq.com/s?__biz=MzI1NjM4ODIwMQ==&mid=2247532094&idx=1&sn=f1672ff09d7a66bea16df1cf9f675fb8&chksm=ea254338dd52ca2e6b1cc18dee18746b54e8880449542e2b2e535195aa54c9029318c91508da&scene=0&xtrack=1#rd]]>\n <![CDATA[]]>\n \n 0\n \n \n \n \n \n <category type=“20” count=“2”>\n <![CDATA[\u4eba\u6c11\u7f51\u79d1\u666e]]>\n \n <![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdnlMm3Fjsr0TKD9FHqtlmqlmXetGA84Pydz2s0K4ZOJ21EssRguoZiaQ/640?wxtype=jpeg&wxfrom=0]]>\n 0\n 0\n <![CDATA[]]>\n \n \n \n 0\n <![CDATA[\u8b66\u949f\uff01\u9694\u79bb\u4e09\u4e2a\u6708\u540e\u590d\u9633\uff0c\u66fe\u53c2\u52a0\u5a5a\u793c\uff01\u4e13\u5bb6\u89e3\u8bfb\u2026\u2026]]>\n <![CDATA[http://mp.weixin.qq.com/s?__biz=MzI1NjM4ODIwMQ==&mid=2247532094&idx=1&sn=f1672ff09d7a66bea16df1cf9f675fb8&chksm=ea254338dd52ca2e6b1cc18dee18746b54e8880449542e2b2e535195aa54c9029318c91508da&scene=0&xtrack=1#rd]]>\n <![CDATA[]]>\n <![CDATA[]]>\n <pub_time>1604391833</pub_time>\n <![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdnlMm3Fjsr0TKD9FHqtlmqlmXetGA84Pydz2s0K4ZOJ21EssRguoZiaQ/640?wxtype=jpeg&wxfrom=0]]>\n \n <![CDATA[]]>\n 100048442\n \n \n <![CDATA[\u4eba\u6c11\u7f51\u79d1\u666e]]>\n \n \n \n <native_url></native_url>\n <del_flag>0</del_flag>\n 0\n <play_length>0</play_length>\n <play_url><![CDATA[]]></play_url>\n <![CDATA[]]>\n \n \n <music_source>0</music_source>\n <pic_num>0</pic_num>\n \n <![CDATA[]]>\n <![CDATA[]]>\n <pic_urls></pic_urls>\n <comment_topic_id>1590472721132503047</comment_topic_id>\n <cover_235_1><![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdnlMm3Fjsr0TKD9FHqtlmqlmXetGA84Pydz2s0K4ZOJ21EssRguoZiaQ/640?wxtype=jpeg&wxfrom=0]]></cover_235_1>\n <cover_1_1><![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWd0n8NJ9EGibwFJyHh241kxISlxt8nolYjW1vL0icqWGgyfByHsbrJC06Q/300?wxtype=jpeg&wxfrom=0]]></cover_1_1>\n <cover_16_9><![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdnlMm3Fjsr0TKD9FHqtlmqlmXetGA84Pydz2s0K4ZOJ21EssRguoZiaQ/640?wxtype=jpeg&wxfrom=0]]></cover_16_9>\n <appmsg_like_type>2</appmsg_like_type>\n <video_width>0</video_width>\n <video_height>0</video_height>\n <is_pay_subscribe>0</is_pay_subscribe>\n \n \n \n 0\n <![CDATA[\u591a\u4eba\u88ab\u8bca\u65ad\u201c\u5e03\u75c5\u201d\uff0c\u5374\u62ff\u5230\u4e86\u201c\u5065\u5eb7\u8bc1\u660e\u4e66\u201d\uff01]]>\n <![CDATA[http://mp.weixin.qq.com/s?__biz=MzI1NjM4ODIwMQ==&mid=2247532094&idx=2&sn=bed3736cdd9ca8a79cca513dfe2e6a0b&chksm=ea254338dd52ca2e7aa37e672c4db7687896abd511d396eaaf0220381a39388cf8af6ea7b4b9&scene=0&xtrack=1#rd]]>\n <![CDATA[]]>\n <![CDATA[]]>\n <pub_time>1604391833</pub_time>\n <![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdcAbibsPphtiaUpNoRN5ontSTUAzW7spssaD8wNfPb0GQAgqMJjFkSgkQ/300?wxtype=jpeg&wxfrom=0]]>\n \n <![CDATA[]]>\n 0\n \n \n <![CDATA[\u4eba\u6c11\u7f51\u79d1\u666e]]>\n \n \n \n <native_url></native_url>\n <del_flag>0</del_flag>\n 0\n <play_length>0</play_length>\n <play_url><![CDATA[]]></play_url>\n <![CDATA[]]>\n \n \n <music_source>0</music_source>\n <pic_num>0</pic_num>\n \n <![CDATA[]]>\n <![CDATA[]]>\n <pic_urls></pic_urls>\n <comment_topic_id>1590472721719705606</comment_topic_id>\n <cover_235_1><![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdcAbibsPphtiaUpNoRN5ontSTUAzW7spssaD8wNfPb0GQAgqMJjFkSgkQ/300?wxtype=jpeg&wxfrom=0]]></cover_235_1>\n <cover_1_1><![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdcAbibsPphtiaUpNoRN5ontSTUAzW7spssaD8wNfPb0GQAgqMJjFkSgkQ/300?wxtype=jpeg&wxfrom=0]]></cover_1_1>\n <cover_16_9><![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdcAbibsPphtiaUpNoRN5ontSTUAzW7spssaD8wNfPb0GQAgqMJjFkSgkQ/300?wxtype=jpeg&wxfrom=0]]></cover_16_9>\n <appmsg_like_type>2</appmsg_like_type>\n <video_width>0</video_width>\n <video_height>0</video_height>\n <is_pay_subscribe>0</is_pay_subscribe>\n \n \n \n \n <![CDATA[gh_3219e59b249a]]>\n <![CDATA[\u4eba\u6c11\u7f51\u79d1\u666e]]>\n \n <template_header></template_header>\n <template_detail></template_detail>\n <forbid_forward>0</forbid_forward>\n \n <![CDATA[https://mmbiz.qpic.cn/mmbiz_jpg/DiaNZoXKtiaYYtZAd0qP5icpaJLAmpPdoWdnlMm3Fjsr0TKD9FHqtlmqlmXetGA84Pydz2s0K4ZOJ21EssRguoZiaQ/640?wxtype=jpeg&wxfrom=0]]>\n \n <![CDATA[gh_3219e59b249a]]>\n \n \n <![CDATA[\u4eba\u6c11\u7f51\u79d1\u666e]]>\n 1\n \n \n \n \n \n \n \n", “room_wxid”: “”, “timestamp”: 1604391874, “to_wxid”: “wxid_f1zufq9du0nv22”, “wx_sub_type”: 5, “wx_type”: 49}

其中有公众号永久链接,通过永久链接就可以进行抓取了。

console.log("公众号:虫术")
console.log("wx:spiderskill")
欢迎大家前来交流

相关案例查看更多