---
name: enterprise-knowledge-rag
description: "当用户需要使用咕咕数据公开 API 完成企业知识库、业务数据组合、参数传递、接口选型或结果校验时使用；不适用于绕过接口详情页、购买规则或人工复核要求的场景。"
---

# 企业知识库与文档问答 Skill

面向企业知识库、RAG 数据准备、文档问答、资料归档和内部搜索的公开 API 组合。

## 业务场景

用于企业知识库、RAG 数据准备、文档问答、制度资料归档和内部搜索。适合把 PDF/Word/HTML 解析、OCR、摘要、关键词、实体、隐私信息去除和知识库问答组合成可追溯的企业知识处理链路。

- 数据范围：覆盖知识库问答、PDF 文本提取、PDF 结构化、PDF 转 HTML、Word 转 HTML、HTML 转 Word、PDF 摘要、文本摘要、关键词、实体识别、隐私信息去除和多语言纠错。
- 关键数据维度：文档维度：文件名、格式、页码、来源 URL、更新时间和权限边界。；内容维度：正文、标题、摘要、关键词、实体、章节和问答片段。；治理维度：脱敏要求、引用来源、人工复核和可访问范围。

## 何时使用

- 把分散的 PDF、Word、HTML 和网页资料整理成可检索文本。
- 为企业制度、产品手册、客服资料和培训材料生成摘要、标签和问答上下文。
- 在问答输出中保留来源文件、页码或段落线索，降低幻觉风险。

## 不适用场景

- 用户只需要查看某一个接口的完整参数、响应字段、价格或购买入口时，直接打开接口详情页。
- 用户希望绕过接口开通、鉴权、配额或人工复核要求时，不应使用 Skill 作为替代。
- 任务需要法律、医疗、金融投资或升学录取的最终决策时，Skill 只能提供数据辅助和复核线索。

## 用户需要提供的信息

- PDF、Word、HTML、网页或纯文本资料，以及知识库主题、权限边界、语言、脱敏要求和问答目标。
- 是否需要 OCR、摘要、关键词、实体、问答、格式转换或隐私信息处理。
- 调用接口所需的 AppKey、开通状态和接口详情页限制。

## 推荐工作流

1. 先把 PDF、Word、HTML 或网页资料解析成可检索文本。
2. 再用摘要、关键词、实体和隐私信息去除接口生成入库元数据。
3. 最后用知识问答接口围绕来源片段生成可追溯答案。

## 参数传递关系

- 文件先通过 PDF、Word 或 HTML 解析接口转换成可检索文本，并保留文件名、页码、段落和来源 URL。
- 正文继续传给隐私信息去除、摘要、关键词和实体接口，生成入库元数据。
- 知识库问答使用整理后的文档片段、知识库 ID 或业务主题作为上下文，回答时必须返回来源文件或段落线索。
- 需要对外发布时再使用纠错或格式转换接口生成可读版本。

## 典型任务模板

- 知识库入库：输入一批 PDF 或 Word；输出文档文本、摘要、关键词、实体、脱敏结果和入库字段。
- 制度问答：输入用户问题和知识库范围；输出答案、引用来源、缺失证据和人工复核建议。
- 资料归档：输入 HTML 或网页 URL；输出可归档 HTML、摘要和标签。

## 接口与关键参数

统一鉴权：调用接口前需要准备咕咕数据 AppKey。推荐在服务端通过 Header 传递 AppKey；历史 Query 参数 `appkey` 仍以接口详情页说明为准。

### AI RAG 文档知识库问答

- 业务角色：知识库问答
- 调用阶段：问答输出
- 接口地址：`POST https://api.gugudata.com/ai/knowledge-bases/{knowledge_base_id}/chat/completions`
- 产出用途：用于围绕企业资料和知识库上下文回答问题。
- 参数来源：知识库标识来自已创建的企业知识库或当前资料归档任务
- 可参考的相关能力：上传知识库文档
- 接口资料：详情页 https://www.gugudata.com/api/details/knowledge-chat；接口 Markdown https://www.gugudata.com/api/details/knowledge-chat/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `knowledge_base_id` | 是 | `string` | default | URL 路径中的知识库标识 | 知识库标识来自已创建的企业知识库或当前资料归档任务 |
| `messages` | 是 | `array` | [{"role":"user","content":"有哪些接口？"}] | OpenAI Chat Completions 兼容消息数组 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `model` | 否 | `string` | gugudata-knowledge-chat | OpenAI Chat Completions 兼容模型名称 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `thread_id` | 否 | `string` | - | 对话线程 ID，不传时自动创建新线程 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `tenant_id` | 否 | `string` | default | 客户侧业务分组标识 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `stream` | 否 | `boolean` | false | 是否使用 SSE 流式响应 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `top_k` | 否 | `integer` | 6 | 检索引用片段数量 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 通用 PDF 文件流 OCR 到文本

- 业务角色：PDF 转文本
- 调用阶段：文档解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/pdf2text`
- 产出用途：用于提取 PDF 文档文本。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pdf2text；接口 Markdown https://www.gugudata.com/api/details/pdf2text/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `pdffile` | 是 | `string/binary` | YOUR_VALUE | formdata 文件流 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |

### PDF 解析格式化输出

- 业务角色：PDF 格式化
- 调用阶段：文档解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/pdf2format`
- 产出用途：用于解析 PDF 结构化内容。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pdf2format；接口 Markdown https://www.gugudata.com/api/details/pdf2format/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `type` | 是 | `string` | YOUR_VALUE | 定义输出格式，可选 text\|html\|xml\|tag | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `pdffile` | 是 | `string/binary` | YOUR_VALUE | 文件格式参数，待转换的 PDF 文件 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |

### PDF 转 HTML

- 业务角色：PDF 转 HTML
- 调用阶段：文档解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/pdf2html`
- 产出用途：用于把 PDF 转成可读 HTML。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pdf2html；接口 Markdown https://www.gugudata.com/api/details/pdf2html/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `file` | 是 | `string/binary` | YOUR_VALUE | formdata 文件流 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `storage` | 否 | `string` | public | 文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### Word 转 HTML

- 业务角色：Word 转 HTML
- 调用阶段：文档解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/word-to-html`
- 产出用途：用于把 Word 文档转换成 HTML。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/word-to-html；接口 Markdown https://www.gugudata.com/api/details/word-to-html/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `file` | 是 | `string/binary` | - | Word 文档文件，支持 .doc 和 .docx 格式 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `storage` | 否 | `string` | public | 文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### HTML 转 Word

- 业务角色：HTML 转 Word
- 调用阶段：文档输出
- 接口地址：`POST https://api.gugudata.com/imagerecognition/html2word`
- 产出用途：用于输出 Word 版本资料。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果；文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/html2word；接口 Markdown https://www.gugudata.com/api/details/html2word/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `type` | 是 | `string` | YOUR_APPKEY | 可选参数为 HTML 或 URL（注意，当类型为 URL 时，需要保证页面可以正常请求，我们的接口不解决加密页面、反爬虫页面等不能正常返回 HTML 的页面请求） | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `content` | 是 | `string` | YOUR_VALUE | 内容正文，如果 type=HTML，那么传递 HTML 内容；如果 type=URL，那么传递需要存储为 Word 的站点 URL 即可 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `filename` | 否 | `string` | N/A | 可选参数，控制生成的文件名称，不需要后缀 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `storage` | 否 | `string` | public | 文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### PDF 全文多语言 AI 摘要

- 业务角色：PDF 摘要
- 调用阶段：文本理解
- 接口地址：`POST https://api.gugudata.com/ai/summarize`
- 产出用途：用于生成 PDF 文档摘要。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/summarize-pdf；接口 Markdown https://www.gugudata.com/api/details/summarize-pdf/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `file` | 是 | `string/binary` | - | 通过 multipart/form-data 上传的 PDF 文件。 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `lang` | 否 | `string` | zh | 摘要语言，例如 zh、en；为空时使用默认语言。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `streaming` | 否 | `boolean` | false | 是否使用流式返回，默认 false。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 文本多语言 AI 摘要

- 业务角色：文本摘要
- 调用阶段：文本理解
- 接口地址：`POST https://api.gugudata.com/ai/text-summarize`
- 产出用途：用于生成文本摘要。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
- 接口资料：详情页 https://www.gugudata.com/api/details/summarize-text；接口 Markdown https://www.gugudata.com/api/details/summarize-text/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `textContent` | 是 | `string` | N/A | 需要生成摘要的文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `streaming` | 否 | `boolean` | false | 是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 多语言长文本 AI 关键字提取

- 业务角色：关键词提取
- 调用阶段：文本理解
- 接口地址：`POST https://api.gugudata.com/ai/keyword-extraction`
- 产出用途：用于生成文档标签。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果；关键词由用户输入或从上一轮内容抽取结果中生成
- 接口资料：详情页 https://www.gugudata.com/api/details/keyword-extraction；接口 Markdown https://www.gugudata.com/api/details/keyword-extraction/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `textContent` | 是 | `string` | N/A | 需要提取关键词的文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `keywordMaxLength` | 否 | `integer` | 5 | 单个关键字长度限制，不传递默认长度为 5 个字符 | 关键词由用户输入或从上一轮内容抽取结果中生成 |
| `streaming` | 否 | `boolean` | false | 是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### NLP 命名实体识别

- 业务角色：实体识别
- 调用阶段：文本理解
- 接口地址：`POST https://api.gugudata.com/text/entityrecognition`
- 产出用途：用于抽取组织、产品、地点等实体。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
- 接口资料：详情页 https://www.gugudata.com/api/details/nlpentityrecognition；接口 Markdown https://www.gugudata.com/api/details/nlpentityrecognition/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `content` | 是 | `string` | YOUR_VALUE | 文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |

### 个人可识别信息(PII) AI 去除

- 业务角色：隐私信息去除
- 调用阶段：数据治理
- 接口地址：`POST https://api.gugudata.com/ai/pii-removal`
- 产出用途：用于对入库文本做隐私字段处理。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pii-removal；接口 Markdown https://www.gugudata.com/api/details/pii-removal/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `content` | 是 | `string` | - | 需要去除个人信息的文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `streaming` | 否 | `boolean` | false | 是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 多语言文本 AI 纠错格式化

- 业务角色：文本纠错
- 调用阶段：文本清洗
- 接口地址：`POST https://api.gugudata.com/ai/grammar-correction`
- 产出用途：用于对外输出前做语言纠错。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
- 接口资料：详情页 https://www.gugudata.com/api/details/grammar-correction；接口 Markdown https://www.gugudata.com/api/details/grammar-correction/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `textContent` | 是 | `string` | N/A | 需要进行语法纠错和格式化的文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `streaming` | 否 | `boolean` | false | 是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

## 数据校验与使用边界

- 知识库回答必须说明依据来源；没有证据时应返回无法判断。
- 隐私信息去除只能作为处理步骤，不等同于完整合规审计。
- 扫描件和复杂表格可能影响 OCR 与结构化结果，需要人工抽检。

## 输出建议

- 输出入库结果时包含来源、摘要、标签、实体、脱敏状态和失败项。
- 输出问答结果时包含答案、引用片段、来源文件和缺失证据。
- 对低质量文档标注页码、图片质量和需人工复核字段。

## 常见问题

- 问：什么情况下应该使用这个 Skill？ 答：当用户提出的目标需要多个咕咕数据公开 API 组合完成，而不是只查询一个接口时，优先阅读这个 Skill。
- 问：这个 Skill 是否需要单独购买？ 答：不需要。Skill 文档只负责业务流程和接口选型，具体接口购买、价格和账号权益仍以接口详情页为准。
- 问：Agent 应该怎样使用这个 Skill？ 答：Agent 应先阅读 SKILL.md，确认业务场景和推荐工作流，再进入接口详情页核对参数、响应字段、价格和调用示例。
- 问：调用接口前需要先核对什么？ 答：需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
- 问：企业知识库与文档问答 Skill 会替代接口文档吗？ 答：不会。Skill 负责说明业务组合和调用顺序，接口参数、响应结构、计费和购买入口仍以接口详情页为准。