企业知识库与文档问答 Skill

面向企业知识库、RAG 数据准备、文档问答、资料归档和内部搜索的公开 API 组合。

业务场景

用于企业知识库、RAG 数据准备、文档问答、制度资料归档和内部搜索。适合把 PDF/Word/HTML 解析、OCR、摘要、关键词、实体、隐私信息去除和知识库问答组合成可追溯的企业知识处理链路。

数据范围：覆盖知识库问答、PDF 文本提取、PDF 结构化、PDF 转 HTML、Word 转 HTML、HTML 转 Word、PDF 摘要、文本摘要、关键词、实体识别、隐私信息去除和多语言纠错。
关键数据维度：文档维度：文件名、格式、页码、来源 URL、更新时间和权限边界。；内容维度：正文、标题、摘要、关键词、实体、章节和问答片段。；治理维度：脱敏要求、引用来源、人工复核和可访问范围。

何时使用

把分散的 PDF、Word、HTML 和网页资料整理成可检索文本。
为企业制度、产品手册、客服资料和培训材料生成摘要、标签和问答上下文。
在问答输出中保留来源文件、页码或段落线索，降低幻觉风险。

不适用场景

用户只需要查看某一个接口的完整参数、响应字段、价格或购买入口时，直接打开接口详情页。
用户希望绕过接口开通、鉴权、配额或人工复核要求时，不应使用 Skill 作为替代。
任务需要法律、医疗、金融投资或升学录取的最终决策时，Skill 只能提供数据辅助和复核线索。

用户需要提供的信息

PDF、Word、HTML、网页或纯文本资料，以及知识库主题、权限边界、语言、脱敏要求和问答目标。
是否需要 OCR、摘要、关键词、实体、问答、格式转换或隐私信息处理。
调用接口所需的 AppKey、开通状态和接口详情页限制。

参数传递关系

文件先通过 PDF、Word 或 HTML 解析接口转换成可检索文本，并保留文件名、页码、段落和来源 URL。
正文继续传给隐私信息去除、摘要、关键词和实体接口，生成入库元数据。
知识库问答使用整理后的文档片段、知识库 ID 或业务主题作为上下文，回答时必须返回来源文件或段落线索。
需要对外发布时再使用纠错或格式转换接口生成可读版本。

典型任务模板

知识库入库：输入一批 PDF 或 Word；输出文档文本、摘要、关键词、实体、脱敏结果和入库字段。
制度问答：输入用户问题和知识库范围；输出答案、引用来源、缺失证据和人工复核建议。
资料归档：输入 HTML 或网页 URL；输出可归档 HTML、摘要和标签。

接口与关键参数

统一鉴权：调用接口前需要准备咕咕数据 AppKey。推荐在服务端通过 Header 传递 AppKey；历史 Query 参数 appkey 仍以接口详情页说明为准。

AI RAG 文档知识库问答

业务角色：知识库问答
调用阶段：问答输出
接口地址：POST https://api.gugudata.com/ai/knowledge-bases/{knowledge_base_id}/chat/completions
产出用途：用于围绕企业资料和知识库上下文回答问题。
参数来源：知识库标识来自已创建的企业知识库或当前资料归档任务
可参考的相关能力：上传知识库文档
接口详情页：https://www.gugudata.com/api/details/knowledge-chat
接口 Markdown：https://www.gugudata.com/api/details/knowledge-chat/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`knowledge_base_id`	是	`string`	default	URL 路径中的知识库标识	知识库标识来自已创建的企业知识库或当前资料归档任务
`messages`	是	`array`	[{"role":"user","content":"有哪些接口？"}]	OpenAI Chat Completions 兼容消息数组	由用户输入、业务筛选条件或上一轮接口结果确定。
`model`	否	`string`	gugudata-knowledge-chat	OpenAI Chat Completions 兼容模型名称	由用户输入、业务筛选条件或上一轮接口结果确定。
`thread_id`	否	`string`	-	对话线程 ID，不传时自动创建新线程	由用户输入、业务筛选条件或上一轮接口结果确定。
`tenant_id`	否	`string`	default	客户侧业务分组标识	由用户输入、业务筛选条件或上一轮接口结果确定。
`stream`	否	`boolean`	false	是否使用 SSE 流式响应	由用户输入、业务筛选条件或上一轮接口结果确定。
`top_k`	否	`integer`	6	检索引用片段数量	由用户输入、业务筛选条件或上一轮接口结果确定。

通用 PDF 文件流 OCR 到文本

业务角色：PDF 转文本
调用阶段：文档解析
接口地址：POST https://api.gugudata.com/imagerecognition/pdf2text
产出用途：用于提取 PDF 文档文本。
参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
接口详情页：https://www.gugudata.com/api/details/pdf2text
接口 Markdown：https://www.gugudata.com/api/details/pdf2text/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`pdffile`	是	`string/binary`	YOUR_VALUE	formdata 文件流	文件或图片来自用户上传、公开 URL 或上一轮转换结果

PDF 解析格式化输出

业务角色：PDF 格式化
调用阶段：文档解析
接口地址：POST https://api.gugudata.com/imagerecognition/pdf2format
产出用途：用于解析 PDF 结构化内容。
参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
接口详情页：https://www.gugudata.com/api/details/pdf2format
接口 Markdown：https://www.gugudata.com/api/details/pdf2format/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`type`	是	`string`	YOUR_VALUE	定义输出格式，可选 text\|html\|xml\|tag	由用户输入、业务筛选条件或上一轮接口结果确定。
`pdffile`	是	`string/binary`	YOUR_VALUE	文件格式参数，待转换的 PDF 文件	文件或图片来自用户上传、公开 URL 或上一轮转换结果

PDF 转 HTML

业务角色：PDF 转 HTML
调用阶段：文档解析
接口地址：POST https://api.gugudata.com/imagerecognition/pdf2html
产出用途：用于把 PDF 转成可读 HTML。
参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
接口详情页：https://www.gugudata.com/api/details/pdf2html
接口 Markdown：https://www.gugudata.com/api/details/pdf2html/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`file`	是	`string/binary`	YOUR_VALUE	formdata 文件流	文件或图片来自用户上传、公开 URL 或上一轮转换结果
`storage`	否	`string`	public	文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。	由用户输入、业务筛选条件或上一轮接口结果确定。

Word 转 HTML

业务角色：Word 转 HTML
调用阶段：文档解析
接口地址：POST https://api.gugudata.com/imagerecognition/word-to-html
产出用途：用于把 Word 文档转换成 HTML。
参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
接口详情页：https://www.gugudata.com/api/details/word-to-html
接口 Markdown：https://www.gugudata.com/api/details/word-to-html/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`file`	是	`string/binary`	-	Word 文档文件，支持 .doc 和 .docx 格式	文件或图片来自用户上传、公开 URL 或上一轮转换结果
`storage`	否	`string`	public	文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。	由用户输入、业务筛选条件或上一轮接口结果确定。

HTML 转 Word

业务角色：HTML 转 Word
调用阶段：文档输出
接口地址：POST https://api.gugudata.com/imagerecognition/html2word
产出用途：用于输出 Word 版本资料。
参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果；文件或图片来自用户上传、公开 URL 或上一轮转换结果
接口详情页：https://www.gugudata.com/api/details/html2word
接口 Markdown：https://www.gugudata.com/api/details/html2word/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`type`	是	`string`	YOUR_APPKEY	可选参数为 HTML 或 URL（注意，当类型为 URL 时，需要保证页面可以正常请求，我们的接口不解决加密页面、反爬虫页面等不能正常返回 HTML 的页面请求）	由用户输入、业务筛选条件或上一轮接口结果确定。
`content`	是	`string`	YOUR_VALUE	内容正文，如果 type=HTML，那么传递 HTML 内容；如果 type=URL，那么传递需要存储为 Word 的站点 URL 即可	文本内容来自用户输入、网页正文抽取或文档识别结果
`filename`	否	`string`	N/A	可选参数，控制生成的文件名称，不需要后缀	文件或图片来自用户上传、公开 URL 或上一轮转换结果
`storage`	否	`string`	public	文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。	由用户输入、业务筛选条件或上一轮接口结果确定。

PDF 全文多语言 AI 摘要

业务角色：PDF 摘要
调用阶段：文本理解
接口地址：POST https://api.gugudata.com/ai/summarize
产出用途：用于生成 PDF 文档摘要。
参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
接口详情页：https://www.gugudata.com/api/details/summarize-pdf
接口 Markdown：https://www.gugudata.com/api/details/summarize-pdf/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`file`	是	`string/binary`	-	通过 multipart/form-data 上传的 PDF 文件。	文件或图片来自用户上传、公开 URL 或上一轮转换结果
`lang`	否	`string`	zh	摘要语言，例如 zh、en；为空时使用默认语言。	由用户输入、业务筛选条件或上一轮接口结果确定。
`streaming`	否	`boolean`	false	是否使用流式返回，默认 false。	由用户输入、业务筛选条件或上一轮接口结果确定。

文本多语言 AI 摘要

业务角色：文本摘要
调用阶段：文本理解
接口地址：POST https://api.gugudata.com/ai/text-summarize
产出用途：用于生成文本摘要。
参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
接口详情页：https://www.gugudata.com/api/details/summarize-text
接口 Markdown：https://www.gugudata.com/api/details/summarize-text/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`textContent`	是	`string`	N/A	需要生成摘要的文本内容	文本内容来自用户输入、网页正文抽取或文档识别结果
`streaming`	否	`boolean`	false	是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。	由用户输入、业务筛选条件或上一轮接口结果确定。

多语言长文本 AI 关键字提取

业务角色：关键词提取
调用阶段：文本理解
接口地址：POST https://api.gugudata.com/ai/keyword-extraction
产出用途：用于生成文档标签。
参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果；关键词由用户输入或从上一轮内容抽取结果中生成
接口详情页：https://www.gugudata.com/api/details/keyword-extraction
接口 Markdown：https://www.gugudata.com/api/details/keyword-extraction/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`textContent`	是	`string`	N/A	需要提取关键词的文本内容	文本内容来自用户输入、网页正文抽取或文档识别结果
`keywordMaxLength`	否	`integer`	5	单个关键字长度限制，不传递默认长度为 5 个字符	关键词由用户输入或从上一轮内容抽取结果中生成
`streaming`	否	`boolean`	false	是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。	由用户输入、业务筛选条件或上一轮接口结果确定。

NLP 命名实体识别

业务角色：实体识别
调用阶段：文本理解
接口地址：POST https://api.gugudata.com/text/entityrecognition
产出用途：用于抽取组织、产品、地点等实体。
参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
接口详情页：https://www.gugudata.com/api/details/nlpentityrecognition
接口 Markdown：https://www.gugudata.com/api/details/nlpentityrecognition/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`content`	是	`string`	YOUR_VALUE	文本内容	文本内容来自用户输入、网页正文抽取或文档识别结果

个人可识别信息(PII) AI 去除

业务角色：隐私信息去除
调用阶段：数据治理
接口地址：POST https://api.gugudata.com/ai/pii-removal
产出用途：用于对入库文本做隐私字段处理。
参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
接口详情页：https://www.gugudata.com/api/details/pii-removal
接口 Markdown：https://www.gugudata.com/api/details/pii-removal/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`content`	是	`string`	-	需要去除个人信息的文本内容	文本内容来自用户输入、网页正文抽取或文档识别结果
`streaming`	否	`boolean`	false	是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。	由用户输入、业务筛选条件或上一轮接口结果确定。

多语言文本 AI 纠错格式化

业务角色：文本纠错
调用阶段：文本清洗
接口地址：POST https://api.gugudata.com/ai/grammar-correction
产出用途：用于对外输出前做语言纠错。
参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
接口详情页：https://www.gugudata.com/api/details/grammar-correction
接口 Markdown：https://www.gugudata.com/api/details/grammar-correction/llm.md

关键请求参数：

参数	必填	类型	默认值	说明	来源与传递
`textContent`	是	`string`	N/A	需要进行语法纠错和格式化的文本内容	文本内容来自用户输入、网页正文抽取或文档识别结果
`streaming`	否	`boolean`	false	是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。	由用户输入、业务筛选条件或上一轮接口结果确定。

数据校验与使用边界

知识库回答必须说明依据来源；没有证据时应返回无法判断。
隐私信息去除只能作为处理步骤，不等同于完整合规审计。
扫描件和复杂表格可能影响 OCR 与结构化结果，需要人工抽检。

输出建议

输出入库结果时包含来源、摘要、标签、实体、脱敏状态和失败项。
输出问答结果时包含答案、引用片段、来源文件和缺失证据。
对低质量文档标注页码、图片质量和需人工复核字段。

常见问题

问：什么情况下应该使用这个 Skill？答：当用户提出的目标需要多个咕咕数据公开 API 组合完成，而不是只查询一个接口时，优先阅读这个 Skill。
问：这个 Skill 是否需要单独购买？答：不需要。Skill 文档只负责业务流程和接口选型，具体接口购买、价格和账号权益仍以接口详情页为准。
问：Agent 应该怎样使用这个 Skill？答：Agent 应先阅读 SKILL.md，确认业务场景和推荐工作流，再进入接口详情页核对参数、响应字段、价格和调用示例。
问：调用接口前需要先核对什么？答：需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
问：企业知识库与文档问答 Skill 会替代接口文档吗？答：不会。Skill 负责说明业务组合和调用顺序，接口参数、响应结构、计费和购买入口仍以接口详情页为准。

企业知识库与文档问答 Skill

业务场景

何时使用

不适用场景

用户需要提供的信息

推荐工作流

参数传递关系

典型任务模板

接口与关键参数

AI RAG 文档知识库问答

通用 PDF 文件流 OCR 到文本

PDF 解析格式化输出

PDF 转 HTML

Word 转 HTML

HTML 转 Word

PDF 全文多语言 AI 摘要

文本多语言 AI 摘要

多语言长文本 AI 关键字提取

NLP 命名实体识别

个人可识别信息(PII) AI 去除

多语言文本 AI 纠错格式化

数据校验与使用边界

输出建议

常见问题