微信公众号数据采集 - 新闻资讯 - 云南小程序开发|云南软件开发|云南网站建设-昆明葵宇信息科技有限公司

159-8711-8523

云南网建设/小程序开发/软件开发

知识

不管是网站,软件还是小程序,都要直接或间接能为您产生价值,我们在追求其视觉表现的同时,更侧重于功能的便捷,营销的便利,运营的高效,让网站成为营销工具,让软件能切实提升企业内部管理水平和效率。优秀的程序为后期升级提供便捷的支持!

您当前位置>首页 » 新闻资讯 » 公众号相关 >

微信公众号数据采集

发表时间:2020-10-19

发布人:葵宇科技

浏览次数:35

目录

一、采集公众号文章URL

1.运行环境

1.Webdriver

2.python运行环境

3.cx-oracle

4.lxml

5.注册一个微信公众号

2.采集文章连接

1.配置config.txt

2.启动程序

二、采集文章详细信息

1.配置detail_config.txt

2.启动程序

三、数据

1.数据库

2.Execl


最近统计感兴趣的公众号的阅读数据,这篇文章就记录一下实现过程。本文只用于学习交流,请勿他用。

一、采集公众号文章URL

本程序主要考虑是在window下运行,在运行之前,请确保已有python的基本运行环境,以及相关的python插件。

1.运行环境

1.Webdriver

确保window环境有google浏览器,如果你所使用的google浏览器版本不知支持程序中所提供的webdriver,有以下解决方式:

一是下载自己电脑中google浏览器版本所对应的webdriver

二是安装文件中提供的gongle浏览器

三是自己查找其他浏览器的对应的webdriver(这里不建议这么做,除非自己能搞定遇到的问题)

2.python运行环境

python版本>=3.6

3.cx-oracle

版本 5.3这个版本对应服务器上的oracle数据库版本11g,其他版本连接不上

pip install oracle==5.3

4.lxml

execl文件操作需要的插件

pip install lxml

5.注册一个微信公众号

用已有的也行

2.采集文章连接

1.配置config.txt

这个文件可以配置多个公众号,程序会将所配置的公众号的文章url采集下来,注意格式为:

每个公众号一行

公众号名 起始时间 结束时间

即需要采集的公众号名称,采集的开始时间,结束时间,以空格隔开,程序只会保存起始时间,结束时间内的文章数据。

2.启动程序

点击JZTravel_Artical_Url.bat,微信扫一扫,登录自己的微信公众号,登录成功后,会进入微信公众号页面,不要关闭这个页面,因为程序会自动将这个页面退出,页面退出后程序将采集文章url。

程序运行结束后,会在data文件夹下产生相应的文件,里面保存着需要采集的微信公众号文章的url。

注意:登录过程中,可能出现以下报错,不用急,这可能是当前网络问题,导致页面上的数据加载不全导致,重试几次就行。

二、采集文章详细信息

1.配置detail_config.txt

采集公众号详情的配置文件

注意:由于cookie的原因,这个文件只能配置一个公众号信息,并且这个需要采集的公众号必须和cookie中的连接对应,格式为

公众号名称|数据保存方式

即需要采集的公众号,保存方式,”|”分开,包存方式有三种,xls—保存为execloracle—保存到oracle数据库,other—同时保存到execl文件和Oracle数据库。根据实际选择需要。

2.启动程序

点击JZTravel_Artical_Detail.bat,程序将自动采集文章的详细数据。

注意:

报错一:程序出现以下错误时,不会影响采集程序,也不会影响采集结果

报错二:程序出现以下错误时,是cookie失效导致的,需要从新导入cookie数据,不用担心,已经采集过的文章数据,不会重复采集。

报错三:程序出现以下错误时,是爬虫程序写入的Excel文件被打开了,需要关闭文件重新启动程序,也就是说,爬虫采集的过程中是不能打开execl文件的。

三、数据

考虑到实际运行爬虫的网络环境,这里采用数据多重备份。包括数据本地文件备份和数据库备份。

1.数据库

2.Execl

按照采集日期分开保存。

本文只用于学习交流,请勿他用。技术支持,扣扣:3165845957

相关案例查看更多