写文章
KeenTalk
2020-04-16 20:15

零基础也能使用的SEO爬虫公式,提升10倍工作效率

本篇优秀文章被收录在“平台引流的秘密”专题


零基础也能使用的SEO爬虫公式.jpg


 

 

你有没有遇到过这样的问题,网页里面有几百个网址链接,需要你统计下来,你会一一粘贴复制到表格里吗?

或者要统计公司潜在客户的邮箱,需要通过关键词去搜索,然后每个网页都要点击进去,找找看有没有邮箱呢?

 

对于上面这张种大批量重复的工作,难道就没有更好的、快捷的、简单的解决方案吗?

 

当然是有的,今天这篇文章将给你分享 ——如何利用简单爬虫解决重复大量的工作。

 

不过,在进入教程之前,我们要聊聊:

 

什么是爬虫


 


2020-04-16-10-00-53.jpg


              图片来自simplilearn

 

简单来说,爬虫就是一种网络机器人,主要作用就是搜集网络数据,我们熟知的谷歌和百度等搜索引擎就是通过爬虫搜集网站的数据,根据这些数据对网站进行排序。

 

既然谷歌可以利用爬虫搜集网站数据,那我们是否能利用爬虫帮我们搜集数据呢?

 

当然是可以的。

 

我们可以用爬虫做什么

 

前面已经讲过,如果你遇到一些重复大量的工作,其实都可以交给爬虫来做,比如:

  1. 搜集特定关键词下的用户邮箱

  2. 批量搜集关键词

  3. 批量下载图片

  4. 批量导出导入文章

  5. ……

 

比如我想搜索iphone case的相关用户邮箱,那么可以去Google搜索iphone case这个关键词,然后统计下相关网页,把网址提交给爬虫程序,接着我们就等着出结果就行了。

 

当然,创作一个特定的爬虫程序需要一定的技术基础,市面上主流都是使用python来制作爬虫程序,不过我们今天用一个更简单易懂的爬虫软件——Google Sheet,不用写任何代码的哦!

 

利用Google Sheet爬取数据

 

Google sheet(以下简称GS)是Google旗下的在线办公套件之一,和微软的办公三剑客正好一一对应:

- Google doc - Word

- Google sheet - Excel

- Google presentation - PPT

 

基本上Excel上的公式都可以在GS上运行,不过GS还要另外一个公式,是Excel不具备的,也就是

 

IMPORTXML

 

我们新建一个GS,这个操作和Execl操作一致,然后在A1栏输入我们需要爬取数据的网址,记得网址必须包含https或http,只有这种完整写法才会生效。

 

然后在B1栏输入

=importxml(A1,''//title")

 

       


2020-04-16-15-49-19.png


     

 

 

 

在B1栏输入完成之后我们就会得到如下数据

 

       


2020-04-16-15-52-26.png


     

 

这样就获得了网址的SEO Title。

 

SEO Title出现在每个浏览器窗口的标签处,也是网站呈现给Google搜索引擎的第一登陆点,里面包含该网页的关键词等重要信息。

 

接下来我们在C1栏输入如下公式:

=IMPORTXML(A1,"//meta[@name='description']/@content")

 

然后我们就获得了网页的Meta Description

 

       


2020-04-16-15-56-07.png


     

 

 

我们能看到,刚才搜集的两个信息就是Google SERPs中很重要的两个元素,Title和Description,基本上要做好站内SEO,这两点要做好。

 

       


2020-04-16-15-59-14.png


     

批量爬取网页SEO信息


按照上面的两个公式,我们分别在A1B1C1栏中输入网址、Title、Description,然后A列填满想要爬取的网址,B列和C列利用Excel的复制下拉选项,就是鼠标放到C1栏的右下角出现十字标识后,往下拉动鼠标,C列的其他栏会自动填充好C1的公式:

 

       


2020-04-16-16-13-52.png


     

 

 

 

然后我们就得到了所有网址的Title和Description

 

       


2020-04-16-16-12-17.png


     

 

统计完这些数据之后,我们之后就再也不用愁怎么写SEO Title啦。

 

如果大家想爬取整个网址的Title与Description,可以把竞品的网址全部放上来。至于如何获取整个网址的链接,大家可以去查一下网址的sitemap.xml,在这里面可以找到一个网站所有的链接。

 

了解公式结构


既然importxml可以批量爬取SEO Title,那么当然也是可以爬取其他内容的,比如邮箱地址与链接地址,我们先来分析一下公式结构:

 

=IMPORTXML(A1,"default")

 

A1表示所在列,default表示需要爬取的页面内容结构,所以我们只要修改default值,就能够爬取更多信息,这里给大家展示一下我们在做SEO和统计信息中常用的值

统计所有站内链接,其中的domain.com换成要统计的域名

 

//a[contains(@href, 'domain.com')]/@href

 

统计所有站外链接,其中的domain.com换成要统计的域名

//a[not(contains(@href, 'domain.com'))]/@href

 

 

爬取页面所有邮箱:

//a[contains(@href, 'mailTo:') or contains(@href, 'mailto:')]/@href

 

 

爬取站内所有社交链接,包括linkedin, fb, twitter

//a[contains(@href, 'linkedin.com/in') or contains(@href, 'twitter.com/') or contains(@href, 'facebook.com/')]/@href

 

 

如果你想了解更多能使用的爬虫公式,可以参考Google 官方文档

https://support.google.com/docs/answer/3093342?hl=zh-Hans

 

也可以深入了解一下xpath

https://www.w3schools.com/xml/xpath_intro.asp

 

一键复制表格


如果你觉得复制公式弄表格太麻烦的话,没关系,上面的几个公式都放入了表格,你只要输入网址就可以自动爬取了。

https://docs.google.com/spreadsheets/d/1PV7UX3kmeOdp1EbpRy0qrV6X8LysWGwGq6CoN7Ofle0

打开链接点击file -> make a copy,这个表格就是你的了。

   


2020-04-16-18-53-15.png


以上就是今天的分享,感谢你的观看,希望对你有所帮助,你的点赞关注就是我分享的动力,后期分享更多SEO与建站实操干货哦!


关注作者,看更多TA的好文章 个人展示
KeenTalk 谁在评论里提醒下这位作者,懒得连名片都没填写。
举报
收藏
转发
0/500
添加表情
评论
评论 (120)
最近
最早
3天2夜学会建站
置顶时间 :

设置帖子类型

普通
新闻
活动
修改

圈内转发

0/104

分享至微信

复制链接

举报

请选择举报理由

留联系方式
垃圾广告
人身攻击
侵权抄袭
违法信息
举报

确认要删除自己的评论吗?

取消 确定

确认要删除自己的文章吗?

取消 确定
提问
设置提问积分
当前可用积分:
-
+
20
50
100
200
偷看

积分偷看

10积分
我的积分(可用积分)
确认偷看

问题已关注

答主回复后,系统将通知你

不再提示