# 文章抽取信息化 JSON
> 来源页面: https://www.gugudata.com/api/details/article-extract
## 概览
- API 标识: `article-extract`
- 分类: AI/模型
- 描述: 任意网页 URL 或 HTML 提取文章 JSON
- 标签: 内容提取 / 网页解析
- 短标签: 网页处理 / LLM
- 数据更新时间: 被调用于 6 秒前
- 价格: 1999元/年
- 限时折扣: 999元/年
- 月付参考: 166元/月
- 详情页: https://www.gugudata.com/api/details/article-extract
- 数据预览: https://www.gugudata.com/preview/article-extract
## API 功能
- 支持从任意网页 URL 提取干净的文章内容;
- 自动去除广告、导航栏和非内容元素;
- 提取文章标题、内容、作者和发布日期;
- 支持自定义解析器和获取选项;
- 提供独立的 HTML 字符串提取接口(/ai/v1/articles/extractFromHtml);
- 支持直接从 HTML 字符串提取;
- 高质量的内容提取,智能解析;
- 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
- 全面兼容 Apple ATS;
- 全国多节点 CDN 部署;
- 接口极速响应,多台服务器构建 API 接口负载均衡。
- 接口调用状态与状态监控: https://www.gugudata.com/status
## API 文档
- 接口地址: `https://api.gugudata.com/ai/v1/articles/extract`
- 返回格式: `application/json; charset=utf-8`
- 请求方式: `POST`
- 请求协议: `HTTPS`
- 请求示例: `https://api.gugudata.com/ai/v1/articles/extract?appkey=YOUR_APPKEY`
- 接口测试: https://api.gugudata.com/ai/v1/articles/extract/demo
- Apifox: https://doc.gugudata.com/
- Postman: https://www.postman.com/gugudata/gugudata-official/collection/1163860-ee114343-4622-4a54-a39b-994173c27dac/?action=share&creator=1163860&active-environment=1163860-a95b31ef-324f-43db-b2fc-faa41f45bd35
- OpenAPI: https://www.gugudata.com/openapi/gugudata.openapi.3.1.json
## 请求参数
| 参数名 | 参数类型 | 是否必须 | 默认值 | 备注 |
| --- | --- | --- | --- | --- |
| appkey | string | 是 | YOUR_APPKEY | 付费后获取的 APPKEY,可通过查询参数或请求体传递 |
| url | string | 是 | N/A | 需要提取文章内容的网页 URL 地址 |
## 返回参数
| 参数名 | 参数类型 | 备注 |
| --- | --- | --- |
| DataStatus.StatusCode | integer | 接口返回状态码 |
| DataStatus.StatusDescription | string | 接口返回状态说明 |
| DataStatus.ResponseDateTime | string | 接口数据返回时间 |
| DataStatus.DataTotalCount | integer | 此条件下的总数据量,一般用于分页计算 |
| Data.url | string | 文章的源 URL |
| Data.title | string | 提取的文章标题 |
| Data.description | string | 文章描述/摘要 |
| Data.links | array | 文章中包含的链接数组 |
| Data.image | string | 文章主图片 URL |
| Data.content | string | 提取的文章内容(HTML 格式,已去除广告和导航栏) |
| Data.author | string | 文章作者(如果可用,可能为空字符串) |
| Data.favicon | string | 网站图标 URL |
| Data.source | string | 来源网站域名(如 sohu.com) |
| Data.published | string | 文章发布日期/时间(格式:YYYY-MM-DD HH:MM) |
| Data.ttr | integer | 预计阅读时间(Time to Read,单位:分钟) |
| Data.type | string | 文章类型(如 news、article 等) |
## 接口 HTTP 响应标准状态码
| 状态码 | 状态码解释 | 备注 |
| --- | --- | --- |
| 200 | 接口正常响应 | 请求成功,业务状态请结合响应体中的自定义业务码判断。 |
| 400 | 请求参数错误 | 请求参数缺失、格式错误或参数组合不合法。 |
| 401 | 鉴权失败 | 缺少 appkey 或 appkey 无效。 |
| 403 | 无权限访问 | 订单到期、权限不足或接口额度不可用。 |
| 404 | 资源不存在 | 请求路径不存在。 |
| 405 | 请求方法不允许 | 当前路径不支持该 HTTP 方法。 |
| 415 | 请求内容类型不支持 | 上传或请求体的内容类型不符合接口要求。 |
| 429 | 请求频率受限 | 一般建议同一个 IP 每秒请求不超过 5 次 (QPS<=5),我们不限制同一个 key 的请求总次数,但当单位时间内同一个 IP 请求次数过多,或 AI CDN 判定为恶意抓取数据、流量攻击等异常时,CDN 会返回此状态码,请适当降低请求频率。如有特殊大并发请求场景需求,可联系我们添加白名单处理。 |
| 500 | 服务内部错误 | 服务端处理异常,请稍后重试。 |
| 502 | 上游依赖错误 | 上游依赖服务不可用或返回异常。 |
## 接口自定义状态码
| 自定义状态码 | 自定义状态码解释 | 备注 |
| --- | --- | --- |
| 100 | 正常返回 | 文章成功提取 |
| 101 | 参数错误 | 无效或缺少必需参数(url 参数是必需的) |
| 102 | 请求频率受限 | 一般建议同一个 IP 每秒请求不超过 5 次 (QPS<=5),我们不限制同一个 key 的请求总次数,但当单位时间内同一个 IP 请求次数过多,或 AI CDN 判定为恶意抓取数据、流量攻击等异常时,CDN 会返回此状态码,请适当降低请求频率。如有特殊大并发请求场景需求,可联系我们添加白名单处理。 |
| 103 | 账号欠费 | |
| 104 | APPKEY 错误 | 请检查传递的 APPKEY 是否为开发者中心获取到的值 |
| 110 | 接口响应错误 | 文章提取过程中发生内部服务器错误。URL 可能无法访问或内容格式可能不受支持 |
## cURL 请求示例
```bash
curl --location --request POST 'https://api.gugudata.com/ai/v1/articles/extract?appkey=YOUR_APPKEY' \
--header 'Content-Type: application/x-www-form-urlencoded' \
--data-urlencode 'url=N/A'
```
## 常见问题 Q&A
### Q: 数据请求有缓存吗?
A: 我们为所有数据请求提供实时响应。对于定期更新的数据,我们在其更新周期内实施缓存策略,以优化性能。
### Q: 如何保证请求时 key 的安全性?
A: 建议将 API 请求放置在您的应用程序后端,避免在前端暴露密钥。
### Q: 接口可以用于哪些开发语言?
A: 支持所有可以进行网络请求的开发语言,便于快速集成。
### Q: 接口性能可以保证吗?
A: 接口后台使用商业级架构,您可通过测试接口评估性能。
## 服务协议以及服务免责声明
- [服务协议](https://www.gugudata.com/license)
- [服务免责声明](https://www.gugudata.com/disclaimer)
## 技术支持
- 技术支持邮箱: support@gugudata.com
- 微信客服: https://work.weixin.qq.com/kfid/kfcf9a60a6afe3337b7