企业知识库与文档问答 Skill 查看原始 SKILL.md

企业知识库与文档问答 Skill

面向企业知识库、RAG 数据准备、文档问答、资料归档和内部搜索的公开 API 组合。

业务场景

用于企业知识库、RAG 数据准备、文档问答、制度资料归档和内部搜索。适合把 PDF/Word/HTML 解析、OCR、摘要、关键词、实体、隐私信息去除和知识库问答组合成可追溯的企业知识处理链路。

  • 数据范围:覆盖知识库问答、PDF 文本提取、PDF 结构化、PDF 转 HTML、Word 转 HTML、HTML 转 Word、PDF 摘要、文本摘要、关键词、实体识别、隐私信息去除和多语言纠错。
  • 关键数据维度:文档维度:文件名、格式、页码、来源 URL、更新时间和权限边界。;内容维度:正文、标题、摘要、关键词、实体、章节和问答片段。;治理维度:脱敏要求、引用来源、人工复核和可访问范围。

何时使用

  • 把分散的 PDF、Word、HTML 和网页资料整理成可检索文本。
  • 为企业制度、产品手册、客服资料和培训材料生成摘要、标签和问答上下文。
  • 在问答输出中保留来源文件、页码或段落线索,降低幻觉风险。

不适用场景

  • 用户只需要查看某一个接口的完整参数、响应字段、价格或购买入口时,直接打开接口详情页。
  • 用户希望绕过接口开通、鉴权、配额或人工复核要求时,不应使用 Skill 作为替代。
  • 任务需要法律、医疗、金融投资或升学录取的最终决策时,Skill 只能提供数据辅助和复核线索。

用户需要提供的信息

  • PDF、Word、HTML、网页或纯文本资料,以及知识库主题、权限边界、语言、脱敏要求和问答目标。
  • 是否需要 OCR、摘要、关键词、实体、问答、格式转换或隐私信息处理。
  • 调用接口所需的 AppKey、开通状态和接口详情页限制。

推荐工作流

  1. 先把 PDF、Word、HTML 或网页资料解析成可检索文本。
  2. 再用摘要、关键词、实体和隐私信息去除接口生成入库元数据。
  3. 最后用知识问答接口围绕来源片段生成可追溯答案。

参数传递关系

  • 文件先通过 PDF、Word 或 HTML 解析接口转换成可检索文本,并保留文件名、页码、段落和来源 URL。
  • 正文继续传给隐私信息去除、摘要、关键词和实体接口,生成入库元数据。
  • 知识库问答使用整理后的文档片段、知识库 ID 或业务主题作为上下文,回答时必须返回来源文件或段落线索。
  • 需要对外发布时再使用纠错或格式转换接口生成可读版本。

典型任务模板

  • 知识库入库:输入一批 PDF 或 Word;输出文档文本、摘要、关键词、实体、脱敏结果和入库字段。
  • 制度问答:输入用户问题和知识库范围;输出答案、引用来源、缺失证据和人工复核建议。
  • 资料归档:输入 HTML 或网页 URL;输出可归档 HTML、摘要和标签。

接口与关键参数

统一鉴权:调用接口前需要准备咕咕数据 AppKey。推荐在服务端通过 Header 传递 AppKey;历史 Query 参数 appkey 仍以接口详情页说明为准。

AI RAG 文档知识库问答

关键请求参数:

参数必填类型默认值说明来源与传递
knowledge_base_idstringdefaultURL 路径中的知识库标识知识库标识来自已创建的企业知识库或当前资料归档任务
messagesarray[{"role":"user","content":"有哪些接口?"}]OpenAI Chat Completions 兼容消息数组由用户输入、业务筛选条件或上一轮接口结果确定。
modelstringgugudata-knowledge-chatOpenAI Chat Completions 兼容模型名称由用户输入、业务筛选条件或上一轮接口结果确定。
thread_idstring-对话线程 ID,不传时自动创建新线程由用户输入、业务筛选条件或上一轮接口结果确定。
tenant_idstringdefault客户侧业务分组标识由用户输入、业务筛选条件或上一轮接口结果确定。
streambooleanfalse是否使用 SSE 流式响应由用户输入、业务筛选条件或上一轮接口结果确定。
top_kinteger6检索引用片段数量由用户输入、业务筛选条件或上一轮接口结果确定。

通用 PDF 文件流 OCR 到文本

关键请求参数:

参数必填类型默认值说明来源与传递
pdffilestring/binaryYOUR_VALUEformdata 文件流文件或图片来自用户上传、公开 URL 或上一轮转换结果

PDF 解析格式化输出

关键请求参数:

参数必填类型默认值说明来源与传递
typestringYOUR_VALUE定义输出格式,可选 text|html|xml|tag由用户输入、业务筛选条件或上一轮接口结果确定。
pdffilestring/binaryYOUR_VALUE文件格式参数,待转换的 PDF 文件文件或图片来自用户上传、公开 URL 或上一轮转换结果

PDF 转 HTML

关键请求参数:

参数必填类型默认值说明来源与传递
filestring/binaryYOUR_VALUEformdata 文件流文件或图片来自用户上传、公开 URL 或上一轮转换结果
storagestringpublic文件存储方式,可选 public 或 private。默认 public 返回公开下载地址;private 存入私有存储,返回 file_id,需生成短期下载链接后下载。由用户输入、业务筛选条件或上一轮接口结果确定。

Word 转 HTML

关键请求参数:

参数必填类型默认值说明来源与传递
filestring/binary-Word 文档文件,支持 .doc 和 .docx 格式文件或图片来自用户上传、公开 URL 或上一轮转换结果
storagestringpublic文件存储方式,可选 public 或 private。默认 public 返回公开下载地址;private 存入私有存储,返回 file_id,需生成短期下载链接后下载。由用户输入、业务筛选条件或上一轮接口结果确定。

HTML 转 Word

关键请求参数:

参数必填类型默认值说明来源与传递
typestringYOUR_APPKEY可选参数为 HTML 或 URL(注意,当类型为 URL 时,需要保证页面可以正常请求,我们的接口不解决加密页面、反爬虫页面等不能正常返回 HTML 的页面请求)由用户输入、业务筛选条件或上一轮接口结果确定。
contentstringYOUR_VALUE内容正文,如果 type=HTML,那么传递 HTML 内容;如果 type=URL,那么传递需要存储为 Word 的站点 URL 即可文本内容来自用户输入、网页正文抽取或文档识别结果
filenamestringN/A可选参数,控制生成的文件名称,不需要后缀文件或图片来自用户上传、公开 URL 或上一轮转换结果
storagestringpublic文件存储方式,可选 public 或 private。默认 public 返回公开下载地址;private 存入私有存储,返回 file_id,需生成短期下载链接后下载。由用户输入、业务筛选条件或上一轮接口结果确定。

PDF 全文多语言 AI 摘要

关键请求参数:

参数必填类型默认值说明来源与传递
filestring/binary-通过 multipart/form-data 上传的 PDF 文件。文件或图片来自用户上传、公开 URL 或上一轮转换结果
langstringzh摘要语言,例如 zh、en;为空时使用默认语言。由用户输入、业务筛选条件或上一轮接口结果确定。
streamingbooleanfalse是否使用流式返回,默认 false。由用户输入、业务筛选条件或上一轮接口结果确定。

文本多语言 AI 摘要

关键请求参数:

参数必填类型默认值说明来源与传递
textContentstringN/A需要生成摘要的文本内容文本内容来自用户输入、网页正文抽取或文档识别结果
streamingbooleanfalse是否流式响应,如果为 true,那么接口会流式输出纯文本,在最后一个消息输出完整结果的 JSON。由用户输入、业务筛选条件或上一轮接口结果确定。

多语言长文本 AI 关键字提取

关键请求参数:

参数必填类型默认值说明来源与传递
textContentstringN/A需要提取关键词的文本内容文本内容来自用户输入、网页正文抽取或文档识别结果
keywordMaxLengthinteger5单个关键字长度限制,不传递默认长度为 5 个字符关键词由用户输入或从上一轮内容抽取结果中生成
streamingbooleanfalse是否流式响应,如果为 true,那么接口会流式输出纯文本,在最后一个消息输出完整结果的 JSON。由用户输入、业务筛选条件或上一轮接口结果确定。

NLP 命名实体识别

关键请求参数:

参数必填类型默认值说明来源与传递
contentstringYOUR_VALUE文本内容文本内容来自用户输入、网页正文抽取或文档识别结果

个人可识别信息(PII) AI 去除

关键请求参数:

参数必填类型默认值说明来源与传递
contentstring-需要去除个人信息的文本内容文本内容来自用户输入、网页正文抽取或文档识别结果
streamingbooleanfalse是否流式响应,如果为 true,那么接口会流式输出纯文本,在最后一个消息输出完整结果的 JSON。由用户输入、业务筛选条件或上一轮接口结果确定。

多语言文本 AI 纠错格式化

关键请求参数:

参数必填类型默认值说明来源与传递
textContentstringN/A需要进行语法纠错和格式化的文本内容文本内容来自用户输入、网页正文抽取或文档识别结果
streamingbooleanfalse是否流式响应,如果为 true,那么接口会流式输出纯文本,在最后一个消息输出完整结果的 JSON。由用户输入、业务筛选条件或上一轮接口结果确定。

数据校验与使用边界

  • 知识库回答必须说明依据来源;没有证据时应返回无法判断。
  • 隐私信息去除只能作为处理步骤,不等同于完整合规审计。
  • 扫描件和复杂表格可能影响 OCR 与结构化结果,需要人工抽检。

输出建议

  • 输出入库结果时包含来源、摘要、标签、实体、脱敏状态和失败项。
  • 输出问答结果时包含答案、引用片段、来源文件和缺失证据。
  • 对低质量文档标注页码、图片质量和需人工复核字段。

常见问题

  • 问:什么情况下应该使用这个 Skill? 答:当用户提出的目标需要多个咕咕数据公开 API 组合完成,而不是只查询一个接口时,优先阅读这个 Skill。
  • 问:这个 Skill 是否需要单独购买? 答:不需要。Skill 文档只负责业务流程和接口选型,具体接口购买、价格和账号权益仍以接口详情页为准。
  • 问:Agent 应该怎样使用这个 Skill? 答:Agent 应先阅读 SKILL.md,确认业务场景和推荐工作流,再进入接口详情页核对参数、响应字段、价格和调用示例。
  • 问:调用接口前需要先核对什么? 答:需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
  • 问:企业知识库与文档问答 Skill 会替代接口文档吗? 答:不会。Skill 负责说明业务组合和调用顺序,接口参数、响应结构、计费和购买入口仍以接口详情页为准。