博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
前嗅ForeSpider教程:链接抽取
阅读量:6785 次
发布时间:2019-06-26

本文共 954 字,大约阅读时间需要 3 分钟。

今天,小编为大家带来的是:在前嗅ForeSpider采集过程中,链接抽取操作中的一系列知识点,主要内容有:如何关联模板,如何判断模板关联是否正确,选择链接类型以及过滤的三种方式。具体内容如下:

一,如何关联模板

“链接抽取”抽出链接后,需要采集这些链接所在的页面。我们从这些链接中,选择其中一个作为下一层模板的示例地址,通过关联模板,可以将两个模板连接起来,实现页面的跳转。

在软件中模板的关联关系,与网页中链接跳转的关系相同,因此可以完整的采集数据。

关联方式如下:

①自动关联:软件会根据用户创建模板的情况,帮助用户自动关联。
②手动关联:用户可在链接抽取节点进行手动关联。

关联模板

clipboard.png

二,如何判断模板关联是否正确

①在软件中模板的关联关系,与网页中链接跳转的关系相同。如模板一的示例地址为:

关联模板

clipboard.png

②通过模板一示例地址,点击模板一中任意一条链接,进入需要采集数据的页面,该页面链接即为模板二的示例地址。

模板一地址

图片描述

③所以此时模板一中的链接抽取,需要关联模板二。

模板二地址

图片描述

三,如何选择链接类型

链接类型可分为href和src两种。

  1. href

默认选项。适用于超链接、按钮、CSS文件。

  1. src

适用于图片/视频/音频/资源文件/JS文件等。

四,过滤方法

过滤方式一:智能过滤

智能过滤可以一键过滤出,链接地址规律相同的链接。适用于大多数情况,如过滤的不正确,可以使用方式三:地址/标题过滤。
操作方法如下:
①在链接抽取节点,按Ctrl+鼠标左键,在内置浏览器上点击所需获取的链接,点击“智能过滤”按钮。
②点击软件右上角“采集预览”按钮,查看是否过滤完全。

过滤方式二:定位过滤

定位过滤是通过内置浏览器定位,适用于所需链接都集中在一小片区域的情况。
操作方法如下:
①在链接抽取节点,按Ctrl在内置浏览器上点击(扩大选区按Shift),选中所需链接的区域,点击“确认选区”按钮。
②点击软件右上角“采集预览”按钮,查看是否过滤完全。

过滤方式三:地址/标题过滤

为了在抽取的链接中去除无关链接,有两种过滤方式,配置方式相同。
(1)地址过滤:通过url地址的规律,过滤无关链接。
(2)标题过滤:通过链接标题的规律,过滤无关链接。
① 地址(标题)过滤节点的配置内容

clipboard.png

② 过滤串规则说明

clipboard.png

clipboard.png

转载地址:http://bydgo.baihongyu.com/

你可能感兴趣的文章
Bean property属性说明
查看>>
微软工程师认为 Mozilla 也应该拥抱 Chromium
查看>>
去年出货的工业机器人,超过1/3都跑来了中国
查看>>
Windows死机的话,可能的一些猫病
查看>>
作为架构师,你必需要搞清楚的概念:POJO、PO、DTO、DAO、BO、VO
查看>>
golang-web框架revel一个表单提交的总结
查看>>
PHP 根据IP获取地理位置
查看>>
如何设置同一单据的单据头字段各行合并显示吗?
查看>>
HAProxy负载均衡代理
查看>>
汇编中参数的传递和堆栈修正【转载】
查看>>
web安全实践系列导航
查看>>
[Oracle]GoldenGate官方文档
查看>>
第 42 章 WMware
查看>>
动感的网页相册
查看>>
Nginx的反向代理与负载均衡
查看>>
redis之(十四)redis的主从复制的原理
查看>>
Velocity入门指南
查看>>
ntp redhat
查看>>
sum(case when status=1 then 1 else 0 end) 的意思
查看>>
Win7硬盘安装方法
查看>>