火车头采集1688

  

火车头是目前比较常用的采集软件之一,今天一米软件来给大家分享一下火车头采集1688怎么做。


火车头采集1688


首先,到火车采集器官方网站上去下载软件,然后注册一个用户名和帐号,打开软件并登录进去。火车采集器有免费版与付费版,如果仅仅是基本的数据采集需求,使用免费版即可,基本上能满足你的大部分需求。


登录后,进入主界面会,左侧的任务列表树中会有很多现成的采集案例,可以点开学习参考。这里我们要采集1688的一个店铺中的产品,所以新建一个任务。在开始采集之前,我们需要先筛选出一个整体相对干净整洁,比较符合跨境电商平台产品上传规则的1688店铺。1688店铺千千万,这里随机从1688牛商中找了一个店铺,进行演示。店铺网址:https://chenguanshangmao.1688.com/ 之所以选择这家进行测试,几个原因供大家参考。店铺有一定的规模,生产厂家,绩效较好,支持一件代发,产品图片美观,附图也很漂亮,产品描述中没有过多的垃圾信息,厂家自由品牌,可授权,不易产生侵权纠纷。


正式开始数据采集之前,需要对店铺进行分析,需要采集的目标列表页面:https://chenguanshangmao.1688.com/page/offerlist.htm?pageNum=32 最后这个32表示一共有32页。爬虫需要从列表页面爬到产品详细页面,所以这个列表页起一个引导作用。在地址格式中,输入列表页地址,其中32这个数字是一个变量,数字是在变化的,所以以地址参数进行代替,然后在下面的地址参数中进行数字变化定义。


在列表页中,鼠标反敲右键,点开查看源代码,找出要采集的目标列表开头标签和结尾标签,也即使设置区域。


开头标签,网页代码中仅出现一次


结尾标签,网页代码中仅出现一次


把标签输入到这里。然后在链接过滤中输入需要包含的链接地址:https://detail.1688.com/offer 因为每个产品页面都是以这个链接开头。然后保存,下一步。


接下来是内容采集了。首先确定需要采集的内容,例如标题,图片,价格,重量,描述,库存数等等。首先,打开任意一个产品详细页面https://detail.1688.com/offer/549255112102.html,查看源代码。因为是演示内容,这里只做标题的采集,其他内容也是同样的方法。先来产品采集标题。


在标签列表中新建一个标题标签,打开源代码页面,找到对应的标签内容,输入“珍玥琦欧美英伦风女士礼帽 秋冬保暖仿羊毛毡帽时尚叶子花朵帽子”,


分别截取这个标题的前后2段字符串,输入到下面。


因为采集后的内容可能出现一些不相关的html代码,有时候需把品牌和一些和产品相关的文字清理掉,可以在下面的数据处理中进行处理。勾选上HTML标签排除,批量替换中输入需要清除的字符。然后保存,点击右下角的测试,即可看到采集结果。


在制定完其他标签后,即可开始正式采集。 通常1000多条数据,大概10来分钟即可采集完成。1688对于同一IP频繁访问抓取数据,会有一定的限制,所以适当降低线程与采集间隔时间,也可以用代理IP等方式来规避这种情况。当然,对于付费版用户会有更多的开放权限,例如可以用google翻译插件将采集内容同步翻译成你需要的语言,法语、德语、西班牙语等几十种语言。


以上就是火车头采集1688的全部过程了,学会了赶紧去试试吧。

上一条:1688分销采集软件

下一条:1688图片采集

相关资讯