写文章
JasonLuo
2020-09-15 22:00

🌟同行监控?10分钟获取2000网址🌟

怎么监控同行? 思路如下:

  1. 通过产品在阿里巴巴找到同行列表

  2. 提取改列表, 并找到其在阿里主站

  3. 通过主站信息, 提取同行官方网站

  4. .......

本文用到的工具都是免费的, 切记免费~~

这是我分享的箱二篇文章, 更多精彩还在后边哦~

🌟同行监控?10分钟获取2000网址🌟_·_语雀.png


先看结果

先看看采集到的结果, 2000多的网址, 表头分别是公司名, 官网, 阿里站网址.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_1.png

开头: 哪有同行网址?

找到同行的网址, 再去找到他们的邮箱, 给他们群发套价格或是分析他们的网站.... 想想都美滋滋.

那么问题来了, 哪里有同行? 阿里, alibaba.com. 哪里有同行的网址? 阿里主站 Contact 联系页. xxx.en.alibaba.com/contactinfo.html, 联系页都会有公司名, 地址, 网址.

哪里有同行的邮箱? 按照开发客户的经验, 官网一般都会有 info, sale 和 admin 前缀邮箱的, 而且一般都是经理在管理的. 阿里有大把的同行, 所以有只要阿里去搜产品-找公司-收集网址-挖掘邮箱-发询价, 就可以了.

下图是采集出来的来结果.

采集过程

详细思路是:

  1. 阿里找公司列表, 用行业的关键词去阿里搜, 就会有供应商列表出来, 最多100页.

  2. 提取列表公司网址: 每个供应商, 都有一个阿里主站的网址, 类似于 xxx.en.alibabd.com

  3. Contact 页面提取信息: xxx.en.alibaba.omc/contactinfo.html, 这个就是 contact 页面, 会有如下信息:

    🌟同行监控?10分钟获取2000网址🌟_·_语雀_3.png

1. 阿里公司列表

1.1. 阿里找公司

说干就干, 到阿里巴到官网, 搜索栏切换到 Suppliers, 搜关键词LED, 找出公司来. 我是用这个关键词来演示的, 实际上关键词要跟据实际情况下设定的.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_4.png

1.2. 网址分析

下拉到最后面, 跳转到第二页, 先分析下这个网址.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_5.png

可以看到, 第二页的网址里面有个 page=2, 试下第三页, 就是 page=3, 由此可以看到, 改变这个数字, 就可以到不同的页面. 有了这个变化规律, 就可以在采集器里批量添加网址了.

https://www.alibaba.com/trade/search?spm=a2700.supplier-normal.16.1.60923103urE0j7&n=38&indexArea=company_en&keyword=led&page=2&f1=y&viewType=L

先把这个网址保存下来.

2. 公司网址提取

2.1. 新建采集任务

这里用到的是火车头采集器. 打开火车头采集器, 新建任务.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_6.png

2.2. 添加网址

这里添加网址, 向导添加.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_7.png

选择批量网址, 把刚刚的第二页的网址粘贴上去, 然后把 Page=后面的2替换成地址参数, 下面的地址参数从1开始, 每次递增1, 共25页, 这样的话, 就一次性添加了25页的阿里巴巴的产品页. 每页有36-38家公司, 一下子也有几百了.  这样软件就会一页一面地提取所有25页里面的网址.  阿里默认显示搜索结显示100页, 如果你原意, 也可以设置为100页.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_8.png

2.3 网址列表处理

现在网址添加完了. 软件会这个页面所有的网址都提取出来, 其中有公司主页的网址, 如下所示, 这就是我们想要的.

仔细看下, 这些网址都会有 en.alibaba.com/com_profile.html 这样的字段. 所以软件里添加过滤条件, 网址必需包含刚刚的字段. 把这个字段填进链接过滤里面去.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_9.png

过滤条件弄好了, 等下采集的网址就都是同行阿里主页的网址了. 因为我们要去阿里 contactinfo 页面, 所以网址还要处理下.

先进入高级模式, 选择列表处理, 添加处理方式, 把 /company_profile.html 替换成 /contactinfo.html, 这样提取出来的阿里 xxx.en.alibaba.com/company_profile.html 网址, 经过过滤处理后, 都是变成了xxx.en.alibaba.com/contactinfo.html 联系信息页面的网址了, 上面有就我们心心念念的网址了.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_10.png

高级模式下, 有个列表处理, 把里面网址改掉.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_11.png

3. 内容采集

3.1 添加三个标签

现在到了内容采集了. 先找到一个要采集的 contact 页面, 分析页面, 并 Ctrl  U 查看源代码. 

标签列表, 新建三个标签, name 是采集的公司名, web1 是采集公司的官网, web2 是采集的阿里网址.

3.2 标签设定前后前后截取

分析源代码后, 确定我们要的内容开头字符串, 结尾字符串. 这里需要去查看网页源代码 , 分析我们需要的数据的位置, 前面是什么字符串, 后面是什么字符串.

三个标签数据前后截取设置分别如下图所示. 如果是不同的任务, 或是不同的内容, 是要跟实际情况来更改的.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_12.png
🌟同行监控?10分钟获取2000网址🌟_·_语雀_13.png
🌟同行监控?10分钟获取2000网址🌟_·_语雀_14.png


3.3. 数据处理

测试了下, 发现, 采集的数据, 有其它乱入的东西, 不是很干净, 得处理下.

在数据处理那, 下面有处理方式, 添加几个, 把不要的东西替换掉, 这样最后的结果就干净了.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_15.png

回到name标签里, 添加数据处理方式, 把 Contact Information for 替换为空.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_16.png

点击web1标签, 添加数据处理方式, 把 http://, https://, ww. 全部替换为空的.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_17.png

点击web2标签, 添加数据处理方式, 把 // 替换为空.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_18.png

3.4 测试

再测试下看看, 哈哈, 结果干净多了.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_19.png

4. 开车

保存任务, 再启动任务, 小火车呜呜呜开起来, 开始收集.

🌟同行监控?10分钟获取2000网址🌟_·_语雀_20.png

已经很不错了, 里有些字符再处理下, 就可以让它去运行了.

有了网址, 接下来就怎么去找这些同行的邮箱了.


小结

因为篇副的原因, 有很多的细节没有出写出来. 在操作的过程中, 碰到的问题, 可以留言.

  1. 要想清楚, 网址在 Contact 页面上, 公司列表阿里可以搜出来, 然后再反过来采集这些信息.

  2. 阿里公司列表页要分析出规律, 可以举一反三, 采集余下的几十页的内容.

  3. 网址采集也要分析规律, 去除不需要的网址.

  4. 数据采集要分析源代码, 用前后有字符串来定位目标信息

  5. 最后要一边测试一边改动, 我也是做了很多遍的.




关注作者,看更多TA的好文章 个人展示
JasonLuo 谁在评论里提醒下这位作者,懒得连名片都没填写。
举报
收藏
转发
0/500
添加表情
评论
评论 (28)
最近
最早
置顶时间 :

设置帖子类型

普通
新闻
活动
修改

圈内转发

0/104

分享至微信

复制链接

举报

请选择举报理由

留联系方式
垃圾广告
人身攻击
侵权抄袭
违法信息
举报

确认要删除自己的评论吗?

取消 确定

确认要删除自己的文章吗?

取消 确定
提问
设置提问积分
当前可用积分:
-
+
20
50
100
200
偷看

积分偷看

10积分
我的积分(可用积分)
确认偷看

问题已关注

答主回复后,系统将通知你

不再提示