知识库-网站整站抓取
功能介绍
网站整站抓取功能允许您从指定的网站根域名开始,按照设定的抓取深度和规则,批量抓取整个网站或网站特定部分的内容到知识库中。该功能特别适用于:
- 官网文档批量导入:一次性抓取整个产品文档站点
- 知识库迁移:从旧的文档系统批量迁移到新的知识库
- 竞品分析:系统性地抓取竞争对手的公开信息
- 内容同步:定期同步外部知识库或文档站点的最新内容
核心特性
- 多层级抓取:支持1-5层的网站深度抓取,可控制抓取范围
- 智能链接发现:自动发现和跟踪网站内部链接
- 批量内容处理:高效处理大量页面,支持并发抓取
- 去重机制:自动识别和过滤重复内容
- 断点续传:支持大型抓取任务的中断恢复
- 站点地图支持:可基于sitemap.xml进行更精准的抓取
适用场景
1. 文档站点迁移
将整个技术文档网站(如GitBook、Confluence等)的内容批量迁移到知识库系统。
2. 产品知识库构建
从产品官网的帮助中心、用户手册等多个页面批量构建完整的产品知识库。
3. 行业资讯监控
定期抓取行业门户网站的特定栏目,建立行业动态知识库。
4. 内部文档整合
将分散在不同系统中的内部文档统一抓取到中央知识库。
操作指南
第一步:创建整站抓取任务
- 进入知识库管理页面,点击"新建知识库"或选择已有知识库
- 选择"网站整站抓取"作为数据源类型
- 填写抓取配置信息:
- 起始URL:输入网站首页或起始页面地址
- 抓取深度:设置抓取层级(1-5层,建议2-3层)
- 抓取范围:选择抓取整站或指定子目录
- 页面过滤:设置要包含或排除的页面规则
- 内容过滤:设置要包含或排除的 内容规则
- 并发设置:设置同时抓取的页面数量
- 更新频率:设置自动更新周期(可选)
第二步:配置抓取策略
深度设置详解
- 1层深度:仅抓取起始页面
- 2层深度:抓取起始页面 + 直接链接的页面
- 3层深度:在2层基础上继续抓取下一级链接
- 4-5层深度:适用于深层嵌套的大型网站
范围控制
- 整站抓取:从根域名开始抓取所有可访问页面
- 子目录抓取:限制在指定的URL路径下
- 模式匹配:使用通配符或正则表达式定义抓取范围
过滤规则
包含规则示例:
- /docs/*(仅抓取docs目录下的页面)
- *.html(仅抓取HTML页面)
- *help*(抓取URL中包含help的页面)
排除规则示例:
- /admin/*(排除管理后台页面)
- *.pdf(排除PDF文件)
- *login*(排除登录相关页面)
第三步:执行抓取任务
点击"开始抓取"按钮,系统将自动执行以下步骤:
- 站点分析:分析网站结构和可访问的页面链接
- 任务队列:根据深度和过滤规则生成抓取任务队列
- 并发抓取:按照设定的并发数同时抓取多个页面
- 内容提取:智能识别并提取每个页面的主要内容
- 数据清理:统一格式化和优化内容结构
- 去重处理:识别和合并重复或相似的内 容
- 质量检查:验证抓取内容的完整性和质量
抓取建议
- 建议在网络稳定时执行大型抓取任务
- 大型网站建议分批抓取,避免一次性抓取过多内容
- 设置合理的并发数,避免对目标网站造成过大压力
- 定期检查抓取进度,及时处理异常页面
第四步:监控抓取进度
在抓取过程中,您可以实时监控:
- 抓取进度:已完成/总页面数的进度条
- 成功率统计:成功抓取的页面比例
- 错误日志:记录无法访问或抓取失败的页面
- 内容预览:查看已抓取页面的内容质量