微信公众号数据采集

发表时间：2020-10-19

发布人：葵宇科技

浏览次数：35

一、采集公众号文章URL

1.运行环境

1.Webdriver

2.python运行环境

3.cx-oracle

4.lxml

5.注册一个微信公众号

2.采集文章连接

1.配置config.txt

2.启动程序

二、采集文章详细信息

1.配置detail_config.txt

2.启动程序

三、数据

1.数据库

2.Execl

最近统计感兴趣的公众号的阅读数据，这篇文章就记录一下实现过程。本文只用于学习交流，请勿他用。

一、采集公众号文章URL

本程序主要考虑是在window下运行，在运行之前，请确保已有python的基本运行环境，以及相关的python插件。

1.运行环境

1.Webdriver

确保window环境有google浏览器，如果你所使用的google浏览器版本不知支持程序中所提供的webdriver，有以下解决方式：

一是下载自己电脑中google浏览器版本所对应的webdriver

二是安装文件中提供的gongle浏览器

三是自己查找其他浏览器的对应的webdriver(这里不建议这么做，除非自己能搞定遇到的问题)

2.python运行环境

python版本>=3.6

3.cx-oracle

版本 5.3这个版本对应服务器上的oracle数据库版本11g,其他版本连接不上

pip install oracle==5.3

4.lxml

execl文件操作需要的插件

pip install lxml

5.注册一个微信公众号

用已有的也行

2.采集文章连接

1.配置config.txt

这个文件可以配置多个公众号，程序会将所配置的公众号的文章url采集下来，注意格式为：

每个公众号一行

公众号名起始时间结束时间

即需要采集的公众号名称，采集的开始时间，结束时间，以空格隔开，程序只会保存起始时间，结束时间内的文章数据。

2.启动程序

点击JZTravel_Artical_Url.bat，微信扫一扫，登录自己的微信公众号，登录成功后，会进入微信公众号页面，不要关闭这个页面，因为程序会自动将这个页面退出，页面退出后程序将采集文章url。

程序运行结束后，会在data文件夹下产生相应的文件，里面保存着需要采集的微信公众号文章的url。

注意：登录过程中，可能出现以下报错，不用急，这可能是当前网络问题，导致页面上的数据加载不全导致，重试几次就行。

二、采集文章详细信息

1.配置detail_config.txt

采集公众号详情的配置文件

注意：由于cookie的原因，这个文件只能配置一个公众号信息，并且这个需要采集的公众号必须和cookie中的连接对应，格式为

公众号名称|数据保存方式

即需要采集的公众号，保存方式，以”|”分开，包存方式有三种，xls—保存为execl，oracle—保存到oracle数据库，other—同时保存到execl文件和Oracle数据库。根据实际选择需要。

2.启动程序

点击JZTravel_Artical_Detail.bat，程序将自动采集文章的详细数据。

注意：

报错一：程序出现以下错误时，不会影响采集程序，也不会影响采集结果

报错二：程序出现以下错误时，是cookie失效导致的，需要从新导入cookie数据，不用担心，已经采集过的文章数据，不会重复采集。

报错三：程序出现以下错误时，是爬虫程序写入的Excel文件被打开了，需要关闭文件重新启动程序，也就是说，爬虫采集的过程中是不能打开execl文件的。

三、数据

考虑到实际运行爬虫的网络环境，这里采用数据多重备份。包括数据本地文件备份和数据库备份。

1.数据库

2.Execl

按照采集日期分开保存。

本文只用于学习交流，请勿他用。技术支持，扣扣：3165845957

微信公众号数据采集 - 新闻资讯 - 云南小程序开发|云南软件开发|云南网站建设-昆明葵宇信息科技有限公司

微信公众号数据采集

一、采集公众号文章URL

1.运行环境

1.Webdriver

2.python运行环境

3.cx-oracle

4.lxml

5.注册一个微信公众号

2.采集文章连接

1.配置config.txt

2.启动程序

二、采集文章详细信息

1.配置detail_config.txt

2.启动程序

三、数据

1.数据库

2.Execl

相关案例查看更多

宝莱校尉-灵活用工平台

温泉山谷物业服务

云装网

中金泽报废车回收系统

君品居直销分红新零售商城

丽江旅游服务中心

迪欧供应链-综合电商平台app

云霸梯具

相关阅读

友情链接