跳转到主要内容

网页采集助手简介

简介:一键从任意网页中采集你需要的内容,并导入AI 表格 智能网页数据采集工具,通过浏览器插件与AI表格边栏插件协同,为用户提供从任意网页快速提取结构化数据的“一键式能力”。

你可以用它做什么?

支持采集的网页、数据类型

  • 自媒体平台:支持小红书笔记列表、短视频列表;采集标题、作者、点赞量等字段
  • 电商平台:采集商品封面图、价格、评分、销量等字段
  • 资讯与新闻页面:采集标题、正文、摘要、发布时间等字段
  • 评论互动区:采集评论内容、发布者、发布时间等字段
  • 信息发布平台:采集招投标链接、正文、发布时间等字段
  • 业务系统后台页面:财务、考勤、项目进度管理后台表格整理到 AI 表格

使用前准备

查看安装指南

采集网页示例

采集网页列表信息

小红书笔记列表: 在输入框中填入 小红书关键词搜索页链接或用户主页链接,即可将链接中笔记列表的字段解析并导入到 AI 表格 淘宝商品列表: 输入淘宝/天猫等电商平台的 关键词商品列表页面链接,即可识别商品主图、价格、销量、发货地等字段并导入AI 表格 淘宝商品评论列表:
  1. 输入淘宝商品详情链接,若没有自动识别到评论列表,点击「重新选择列表」;
  2. 进入商品详情页后点击「查看全部评价」;
  3. 在右上角采集面板上点击「手动选择」,点选评论区对应的区域,即可识别到评论区列表;
  4. 鼠标滚动以采集更多行数;
  5. 点击「确定」后将数据传回到AI表格。
抖音视频列表: 输入抖音关键词视频搜索页、关键词直播搜索页、用户主页等包含视频/直播列表的链接,即可识别视频首图、作者、发布时间、点赞量等字段数据并导入到AI 表格。

采集网页详情信息

将AI表格中已有的一列网页链接(或通过本插件采集到的链接列)作为输入,并配置好需要在此详情页中采集的字段,网页采集助手将逐个打开链接采集页面中的信息,并逐行写入AI 表格。 批量采集抖音视频详情页: 点击「采集网页详情信息」,在「选择需要采集的链接字段」的输入框中选择放置抖音视频链接的 链接字段,注意要该列的链接必须来自同一网站,且为相同类型的页面,否则将有可能报错。 批量采集小红书笔记详情页 点击「采集网页详情信息」,在「选择需要采集的链接字段」的输入框中选择放置小红书笔记详情页的 链接字段,注意要该列的链接必须来自同一网站,且为相同类型的页面,否则将有可能报错。

常见问题

下载插件安装到Chrome/Edge扩展程序后,开始采集时为什么还是会提示安装新版插件?

  1. 请确认在浏览器内打开AI表格,DingTalk客户端打开的AI表格暂不支持使用本插件;
  2. 下载并安装插件后,需要刷新当前AI表格页面再进入

使用此插件会不会触发反爬机制 / 被平台封号?

网页采集助手本质是用户本地浏览器里的“复制粘贴自动化工具”,不是服务器爬虫,不会进行批量抓取或绕过平台反爬机制: 为什么不会触发平台反爬?
  1. 使用的是用户自己的登录身份:插件运行在用户本地浏览器中,使用用户本人正常登录的网站账号,不绕过登录、不破解权限,对网站来说,这就是一次普通用户访问
  2. 不做自动化批量抓取:网页采集助手是单次触发、人工操作的工具,由用户主动点击执行,不支持高频批量请求;
  3. 控制浏览节奏,模拟真实用户行为:插件遵循正常浏览节奏,不进行高频刷新、不并发请求多个页面,这与常见的爬虫行为(高频、批量、自动化)本质不同。
我们在产品设计上遵循以下原则:
  • 尊重网站的访问规则和服务条款
  • 不绕过登录、权限或反爬机制
  • 以用户个人效率提升为核心场景
网页采集助手不是爬虫系统,而是用户浏览器里的效率工具,只帮助用户整理自己正在浏览的页面内容,不会进行批量抓取或触发平台反爬机制。

咨询插件使用问题: