写文章
Evaclh
2019-07-29 20:35
人工智能产品数据采集上传,你可以一天完成一年工作量
本篇优秀文章被收录在“提高你的工作效率”专题


原创方法,原创文章,请支持原创。


基于人工智能技术采集产品数据。


这篇文章一出,我在想基于米课圈的大流量,阿里巴巴国际站上的产品会不会被米课圈的人抄糊掉?哈哈,不管那么多了,看到了这篇文章的人你们千万不要告诉马云我是始作俑者。然后抄的时候要悠着点,软件采集数据频率不要太高,修改下关键词及多加些长尾词,不要让Google很明显的就知道你是从阿里上抄来的产品数据就可以。


任何一个网站,多传产品是有意义的,意味着自然流量也会增多,询盘会增加。 比如Google 搜索出来的产品是5万个,你传了5000个,那么你的被搜索概率是不是占到十分之一?


上传产品对每个业务来说都是件很头疼的事情,真是个力气活,传到都想吐,想必你也不例外吧。


自从我们新网站上线2年多以来,实际上传的产品有限,想我们的产品除了要P图,还要编写listing 及description, 完整上传一个产品最快没十几分钟是下不来的,导致一天之内一个人最多只能上传个50-70个产品,还不是在最完美的修图情况下做到的。想到我们的产品型号有几千个,尤其今年加大了3C产品的B2B上线,这上传到年底也传不完。


前几天一下好醒目,突发奇想,可不可以用软件把阿里巴巴的优秀产品资料借鉴引用一下(说人话就是抄)然后再修改整合上传到自己的网站上呢?


搜遍全网,发现有一个软件看起来很好用,后羿采集器,还免费,导出无限制网络爬虫软件,人工智能数据采集软件,小白神器,免费导出采集结果。


看网站宣传的是前谷歌技术团队倾力打造,基于人工智能技术,只需输入网址就能自动识别采集内容。


采集软件网址: http://www.houyicaiji.com/


先下载终端,填上目标网址。视频见随后发的动态。

数据采集结果如图:


b48270f1d694847ddb979b1089b3ce5a.jpg

08f01aad7793fa63b3b5711b2f31b0bb.jpg

244dfda79a94852bdec0666da4641149.jpg

很不幸,这家公司作为案例被选中了,8901个产品很有代表性。如果是你公司产品,请联系下我,我会删除重新选案例。最后共采集到8901个产品数据,耗时1小时,导出为Excel格式。


以上采集数据很简单也快速。修改产品数据使之能够符合你网站的CSV格式才是困难开始。为这个CSV的修改,用了2天时间,因为第一次摸索, 以后知道怎么修改就容易了。


我想大多数网站的CSV文件格式应该都差不多,下面根据我们网站的产品CSV文件格式碰到的疑难问题及要注意的事项做个说明。


1、为了不让Google查重到你的产品数据来自某网站,以免受处罚,你需要手工进行修改,我们使用的是后羿采集免费版本,看它的收费版本有个伪原创功能:在发布文章到网站时进行伪原创处理。我在想这个产品数据只要我修改了主要关键词,加些长尾词是否就能降低这个查重率。收费版本的伪原创功能是否也是这么操作的。这个没得到证实,自己用的时候小心点,我不负责的。😂

(此处8月9号新增)

清洗数据,修改产品Title

1)采集到的产品数据Title很多会带有品牌名称,我们通过Ctr F查找替换为空格space键或者直接点击查找替换。比如品牌名称为APPL,鼠标框住所有产品的Title列,用Ctr F 查找APPL替换为空格或直接点击全部替换。(替换为:输入space空格键或不输入都可以)


89d5e029dbb2aca6ed504119c3654ad4.jpg


你还可以把一些主要关键词,一些修饰词比如 Hot selling, High-end, best price, top quality, compatible, new 等等 全部查找替换为空格或直接点击全部替换,目的是让Google爹妈都不认得你的产品数据来自哪个网站, 要狠起来,甚至产品名称都可以查找替换成空格。

2)经过上述查找替换后,会产生很多空格, 我们再征对这些空格进行清理,替换为一个空格,比如 查找4个空格,按space键盘4次,替换为1个空格,查找3个空格替换为1个空格,依次2个空格替换为1个空格,目的是整理剔除上述不需要的词留下的空格,使Title变得整齐。

(新增到此处结束)


3)在Excel表格中,通过公式=C2&""&B2,   B代表上述清洗整理后的产品名称 Title,C代表你要加的品牌名和关键词,甚至是你要更换的产品名称。比如最简单的Title,如下增加品牌名和关键词,其他产品行下拉公式即可。

ba2ca316a3e8bac55908ed515056d512.jpg


经过这样清洗整理,产品品牌,主要关键词都变化了,各单词的位置也有变动,我就不信Google还认得出来。



2、从你的网站导出CSV产品数据文件。我们的网站产品CSV文件格式里有个Handle栏目,我做的时候当时就是忽略了这个,因为根据样品格式都是Title里各单词加横杆,也不知道怎么填,以为空着也行, 结果出错了2天,直到第二天才查出只传了一个产品的原因。handle 是每种产品的唯一名称。它们可以包含字母、短划线和数字,但不能包含空格。每个产品的 URL 中都使用一个 handle。例如,“女用滑雪板”的 handle 应为 womens-snowboard,且产品的 URL 应为 https://yourwebsite.com/products/womens-snowboard  CSV 中以不同 handle 开头的每行都被视为一个新产品。若要向产品添加多张图片,应添加带有相同 handle 的多行。


a0fc6d12ca5eede3a0336b70fcb715d1.jpg


以下是我们网站CSV要填的主要项目。复制第一步修改的Title,然后接着修改, 这步修改后是给Handle栏目用的, 用Ctr F, 查找和替换功能,把空格替换成 - , 记住查找内容里要敲上space键,即使看不到也是要的。 把复制修改后的Title 内容Copy到Handle栏目,记住原来第一步修改的Title保持不变,还是在原来的Title列。

​其中Body(HTML)是产品详情页面的描述,按照样品表格原代码里的格式填就可以了,由于数量太多,只能填一些统一的描述。 每个产品的单独详情页面我还没有用后羿采集软件看是否能批量采集出,如果能采集,后续修改这个Body(HTML)也是可以的,目前我还做不到。看到一个深入采集的栏目,解决方案在这里。单个详情页面采集是可以的,批量还在测试中。(此处9.1更新)



Handle




Title




Body (HTML)




Vendor




Type




Tags




Published




Option1 Name




Option1 Value




Option2 Value




Option3 Name




Option3 Value




Variant SKU




Variant Grams




Variant Inventory Tracker




Variant Inventory Policy




Variant Fulfillment Service




Variant Price




Variant Compare At Price




Image Src




Image Position




Image Alt Text


3.Image Alt Text 这个属性很重要,关系到Google通过图片搜索到你的产品。你可以把 1)清洗整理后剩下的产品名称、型号填入。网上有相关的APP软件进行优化,比如Build Image Edit (BIE), 优化显示如下图,蓝色遮盖部分为你的网站域名。我们的网站有Kit会进行自动优化。


eca2304e9e087e59819a4b924279c61f.jpg


4.Image Src 这部分也是不能空白的,图片采集不是很全,只有通过自己网站托管统一包装图片用下先,有时间再修改了,目前还没找到能完整采集图片的设置。有些即使采集了,也是有水印的,那还是慢慢修改吧。

(该部分8月7号新增)如果用自己统一品牌包装图片,可以上传一个产品到网站,附上要用的图,再把这个产品导出CSV格式,把这个CSV格式里的列 Image Src 的链接copy到你要导入的所有数据中的Image Src 列。格式通常为 https://cdn.yourwebsite.com/files/......v=1234567890,  1-0代表不同数字排列组合格式。举例: http://cdn.yourwebsite.com/s/files/1/0016/9220/5092/products/snowboard.jpg?v=1565173507 

这样所有产品用的都是统一品牌包装图片了。网页打开的图片链接是用不了的,只能是以上面的方法提到的图片链接格式才能通过。

5. Variant Price 价格取数

由阿里上采集到的价格通常有价格区间。比如:$9-$12 $8-15 $10-$50 $10-$50...等等,我们通常取每个产品的第一个价格,加上你想加的点数。

对于上千条价格怎么取数?你只要在相邻的一列,连续输入9,8,10,后面的0输入会成灰色,连续输入要迅速, 这样几千个价格会快速自动填充,跳出取的第一个数。如图:

e44f6275f1f897737a184a6a8aa02177.jpg

(新增到此处)


在Excel表格里各行列修改好后,转成CSV文件格式,再导入网站。


建议你使用 Google 表格处理 CSV 文件。要使用 Google 表格,必须将上述修改好的 CSV 文件导入该程序。完成更改后,将 CSV 文件导出到你的计算机。在导出、使用其他电子表格程序编辑然后重新导入网站的CSV 文件中,特殊字符无法始终正常工作。


将上述按样品CSV产品文件修改好的CSV文件导入 Google 表格。(如果上述修改用的是Excel文件也是可以的)


步骤:


登录您的 Google 帐户。


在 Google 表格页面上,单击新建电子表格部分中的空白:


35cf94d2c4c6556980dde0dbcf65cfbb.jpg


在无标题电子表格页面中,转到文件 > 导入...:


ace40043d17b0990cd8de35225f362da.jpg


备注:


采用 UTF-8 编码的 CSV 文件是可用于导入 网站或从 网站 导出的唯一文件格式。


找到并选择你要编辑的 CSV 文件或Excel文件。


在导入文件对话框中,于导入位置信息选择替换电子表格,分隔符类型和将文字转换为数字、日期和公式部分下选择首选选项。


单击导入:

3b08a7164c46fb9952ca57e394a7c26d.jpg


你可在此处编辑 CSV。完成后,可将其从 Google 表格导出为 .csv 文件,再导入到你的网站中。

步骤:在CSV电子表格页面中,转到文件>下载为>逗号分隔值(.csv, 当前工作表)


70a300c06fa3c1ced84c2c6330d17b24.jpg


CSV 文件将显示在下载文件夹中。将该文件导入到你的网站中,至此,产品数据上传已全部完成。


在这里谢谢鹏米群的William Lee, David, AKK数据线-加工定制 等等各位高手的帮助和支持修改Excel问题提供的方法及案例选择。


以上就是一个产品数据采集和制作CSV文件上传到你的网站的全部流程。后续上面未解决的问题待找到方法后将会陆续更新。

这个方法是不是很赞?AI采集产品数据上传,一天完成一年的工作量,你也可以的。



关注作者,看更多TA的好文章 个人展示
Evaclh 谁在评论里提醒下这位作者,懒得连名片都没填写。
举报
收藏
转发
0/500
添加表情
评论
评论 (68)
最近
最早

Evaclh

B2B Printing consumables/ B2C 3C Amazon USA EUR/ Stock

向TA提问

举报

举报原因:

垃圾广告
人身攻击
抄袭侵权
违法信息
取消 确定

圈内转发

0/104

分享至微信

复制链接

举报

请选择举报理由

留联系方式
垃圾广告
人身攻击
侵权抄袭
违法信息
举报

确认要删除自己的评论吗?

取消 确定

确认要删除自己的文章吗?

取消 确定
提问
设置提问积分
当前可用积分:
-
+
20
50
100
200
偷看

积分偷看

10积分
我的积分(可用积分)
确认偷看

问题已关注

答主回复后,系统将通知你

不再提示