---
name: admission-document-archive
description: "当用户需要使用咕咕数据公开 API 完成招生简章归档、业务数据组合、参数传递、接口选型或结果校验时使用；不适用于绕过接口详情页、购买规则或人工复核要求的场景。"
---

# 招生简章与院校资料归档 Skill

面向招生简章归档、院校资料库、PDF 资料整理和教育内容入库的公开 API 组合。

## 业务场景

用于招生简章归档、院校资料库、PDF 资料整理、教育内容入库和院校文档检索。适合把 HTML/PDF/Word 转换、PDF 文本提取、摘要、关键词、隐私信息去除、院校库、专业库和招生计划组合成资料归档链路。

- 数据范围：覆盖 HTML 转 PDF、PDF 文本提取、PDF 格式化、PDF 转 HTML、Word 转 HTML、PDF 摘要、关键词、隐私信息去除、院校基础信息、专业基础信息和招生计划。
- 关键数据维度：文档维度：文件格式、页码、来源 URL、抓取时间、学校名称和年份。；教育维度：院校、专业、招生计划、批次、选科和地区。；治理维度：脱敏状态、复核字段、来源链接和归档版本。

## 何时使用

- 把招生简章、院校资料、专业介绍和网页资料转成可检索文本。
- 抽取院校、专业、年份、招生计划等关键字段并与公开数据交叉核对。
- 对报名材料或扫描件做摘要、脱敏、标签和归档。

## 不适用场景

- 用户只需要查看某一个接口的完整参数、响应字段、价格或购买入口时，直接打开接口详情页。
- 用户希望绕过接口开通、鉴权、配额或人工复核要求时，不应使用 Skill 作为替代。
- 任务需要法律、医疗、金融投资或升学录取的最终决策时，Skill 只能提供数据辅助和复核线索。

## 用户需要提供的信息

- 招生简章、院校 PDF、Word、HTML 页面、目标院校、年份、专业、隐私处理要求和归档格式。
- 是否需要 OCR、PDF 转 HTML、正文抽取、摘要、关键词、脱敏或和院校基础数据关联。
- 调用接口所需的 AppKey、开通状态和接口详情页限制。

## 推荐工作流

1. 先把招生资料通过 PDF、HTML 或 Word 转换接口解析成文本。
2. 再用摘要、关键词和隐私信息去除接口生成归档字段。
3. 最后与院校库、专业库和招生计划接口交叉校验。

## 参数传递关系

- 招生资料先通过 PDF、HTML 或 Word 转换接口生成文本，再传给摘要、关键词和隐私信息去除接口。
- 文档中的院校名称、专业名称、年份和计划信息需要与院校库、专业库和招生计划接口交叉校验。
- 如果资料来自网页，先保存原 URL、抓取时间和转换后的 HTML/PDF，后续归档使用同一来源。
- 归档结果应保留原文件、解析文本、摘要、标签和关联的院校或专业标识。

## 典型任务模板

- 招生简章入库：输入 PDF 或网页 URL；输出原文、摘要、关键词、院校关联和待复核字段。
- 专业资料整理：输入专业名称和院校资料；输出专业介绍、招生计划匹配和资料来源。
- 隐私检查：输入报名资料或扫描件；输出脱敏文本、风险字段和人工复核建议。

## 接口与关键参数

统一鉴权：调用接口前需要准备咕咕数据 AppKey。推荐在服务端通过 Header 传递 AppKey；历史 Query 参数 `appkey` 仍以接口详情页说明为准。

### HTML/URL 转 PDF

- 业务角色：HTML 转 PDF
- 调用阶段：资料保存
- 接口地址：`POST https://api.gugudata.com/imagerecognition/html2pdf`
- 产出用途：用于保存招生网页或简章页面。
- 参数来源：科类或选科来自用户所在省份当年的可选枚举；文本内容来自用户输入、网页正文抽取或文档识别结果；文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/html2pdf；接口 Markdown https://www.gugudata.com/api/details/html2pdf/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `type` | 是 | `string` | YOUR_VALUE | 可选参数为 HTML 或 URL（注意，当类型为 URL 时，需要保证页面可以正常请求，我们的接口不解决加密页面、反爬虫页面等不能正常返回 HTML 的页面请求） | 科类或选科来自用户所在省份当年的可选枚举 |
| `content` | 是 | `string` | YOUR_VALUE | 内容正文，如果 type=HTML，那么传递 HTML 内容；如果 type=URL，那么传递需要存储为 PDF 的站点 URL 即可 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `landscape` | 否 | `integer` | 0 | 控制生成 PDF 是否为横向页面模式，传递 1 控制页面横向渲染模式，默认为 0 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `showpages` | 否 | `integer` | 0 | 控制生成的 PDF 是否在页脚包含页码信息，传递 1 控制页脚生成页码，默认为 0 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `filename` | 否 | `string` | N/A | 可选参数，控制生成的文件名称，不需要后缀 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `storage` | 否 | `string` | public | 文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 通用 PDF 文件流 OCR 到文本

- 业务角色：PDF 转文本
- 调用阶段：资料解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/pdf2text`
- 产出用途：用于提取招生简章文本。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pdf2text；接口 Markdown https://www.gugudata.com/api/details/pdf2text/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `pdffile` | 是 | `string/binary` | YOUR_VALUE | formdata 文件流 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |

### PDF 解析格式化输出

- 业务角色：PDF 格式化
- 调用阶段：资料解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/pdf2format`
- 产出用途：用于结构化解析 PDF。
- 参数来源：科类或选科来自用户所在省份当年的可选枚举；文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pdf2format；接口 Markdown https://www.gugudata.com/api/details/pdf2format/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `type` | 是 | `string` | YOUR_VALUE | 定义输出格式，可选 text\|html\|xml\|tag | 科类或选科来自用户所在省份当年的可选枚举 |
| `pdffile` | 是 | `string/binary` | YOUR_VALUE | 文件格式参数，待转换的 PDF 文件 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |

### PDF 转 HTML

- 业务角色：PDF 转 HTML
- 调用阶段：资料解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/pdf2html`
- 产出用途：用于生成可读 HTML 版本。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pdf2html；接口 Markdown https://www.gugudata.com/api/details/pdf2html/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `file` | 是 | `string/binary` | YOUR_VALUE | formdata 文件流 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `storage` | 否 | `string` | public | 文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### Word 转 HTML

- 业务角色：Word 转 HTML
- 调用阶段：资料解析
- 接口地址：`POST https://api.gugudata.com/imagerecognition/word-to-html`
- 产出用途：用于解析 Word 资料。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/word-to-html；接口 Markdown https://www.gugudata.com/api/details/word-to-html/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `file` | 是 | `string/binary` | - | Word 文档文件，支持 .doc 和 .docx 格式 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `storage` | 否 | `string` | public | 文件存储方式，可选 public 或 private。默认 public 返回公开下载地址；private 存入私有存储，返回 file_id，需生成短期下载链接后下载。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### PDF 全文多语言 AI 摘要

- 业务角色：PDF 摘要
- 调用阶段：内容理解
- 接口地址：`POST https://api.gugudata.com/ai/summarize`
- 产出用途：用于生成简章摘要。
- 参数来源：文件或图片来自用户上传、公开 URL 或上一轮转换结果
- 接口资料：详情页 https://www.gugudata.com/api/details/summarize-pdf；接口 Markdown https://www.gugudata.com/api/details/summarize-pdf/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `file` | 是 | `string/binary` | - | 通过 multipart/form-data 上传的 PDF 文件。 | 文件或图片来自用户上传、公开 URL 或上一轮转换结果 |
| `lang` | 否 | `string` | zh | 摘要语言，例如 zh、en；为空时使用默认语言。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `streaming` | 否 | `boolean` | false | 是否使用流式返回，默认 false。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 多语言长文本 AI 关键字提取

- 业务角色：关键词提取
- 调用阶段：内容理解
- 接口地址：`POST https://api.gugudata.com/ai/keyword-extraction`
- 产出用途：用于生成资料标签。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果；关键词由用户输入或从上一轮内容抽取结果中生成
- 接口资料：详情页 https://www.gugudata.com/api/details/keyword-extraction；接口 Markdown https://www.gugudata.com/api/details/keyword-extraction/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `textContent` | 是 | `string` | N/A | 需要提取关键词的文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `keywordMaxLength` | 否 | `integer` | 5 | 单个关键字长度限制，不传递默认长度为 5 个字符 | 关键词由用户输入或从上一轮内容抽取结果中生成 |
| `streaming` | 否 | `boolean` | false | 是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 个人可识别信息(PII) AI 去除

- 业务角色：隐私信息去除
- 调用阶段：数据治理
- 接口地址：`POST https://api.gugudata.com/ai/pii-removal`
- 产出用途：用于处理报名资料中的个人信息。
- 参数来源：文本内容来自用户输入、网页正文抽取或文档识别结果
- 接口资料：详情页 https://www.gugudata.com/api/details/pii-removal；接口 Markdown https://www.gugudata.com/api/details/pii-removal/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `content` | 是 | `string` | - | 需要去除个人信息的文本内容 | 文本内容来自用户输入、网页正文抽取或文档识别结果 |
| `streaming` | 否 | `boolean` | false | 是否流式响应，如果为 true，那么接口会流式输出纯文本，在最后一个消息输出完整结果的 JSON。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

### 全国大学高校基础信息

- 业务角色：院校基础库
- 调用阶段：教育校验
- 接口地址：`GET https://api.gugudata.com/location/college`
- 产出用途：用于关联院校主体。
- 参数来源：院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询；`SchoolUUID` 来自院校基础信息查询结果，也可以由用户指定院校后查询获得；分页参数由调用方控制，用于分批读取结果；科类或选科来自用户所在省份当年的可选枚举
- 接口资料：详情页 https://www.gugudata.com/api/details/college；接口 Markdown https://www.gugudata.com/api/details/college/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `keywords` | 是 | `string` | KEYWORDS | 搜索关键字，模糊匹配高校名称、省市区、高校旧称、地址字段，参数值为空则返回所有数据 | 院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询 |
| `uuid` | 否 | `string` | - | 咕咕数据平台高校唯一 ID，可按响应字段 SchoolUUID 精确查询高校基础信息 | `SchoolUUID` 来自院校基础信息查询结果，也可以由用户指定院校后查询获得 |
| `pageindex` | 否 | `integer` | 1 | 页码，第几页数据，用于控制分页 | 分页参数由调用方控制，用于分批读取结果 |
| `pagesize` | 否 | `integer` | 10 | 每页数据量，参数最大值为 20，用于控制分页 | 分页参数由调用方控制，用于分批读取结果 |
| `keywordstrict` | 否 | `boolean` | false | 控制 keyword 参数在查询时是否进行模糊查询，true 为精确匹配高校名称，默认值为 false 进行模糊查询，可模糊匹配高校名称、省市区、高校旧称、地址字段。参数值为空则返回所有数据 | 院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询 |
| `collegecategory` | 否 | `string` | - | 学院类别，参数默认值为空，不进行筛选。参数可选枚举值：理工类\|综合类\|师范类\|财经类\|医药类\|艺术类\|农林类\|军事类\|政法类\|语言类\|体育类\|民族类\|其它 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `collegetype` | 否 | `string` | - | 学院性质，参数默认值为空，不进行筛选。参数可选枚举值: 普通本科\|远程教育学院\|中外合作办学\|\|独立学院\|高职高专\|HND项目\|其它\|成人教育\|专科（高职） | 科类或选科来自用户所在省份当年的可选枚举 |
| `is985` | 否 | `boolean` | - | 是否为 985 院校，需要参与查询则传参为：true | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `is211` | 否 | `boolean` | - | 是否为 211 院校，需要参与查询则传参为：true | 由用户输入、业务筛选条件或上一轮接口结果确定。 |
| `isdualclass` | 否 | `boolean` | - | 是否为双一流院校，需要参与查询则传参为：true | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

完整请求参数、响应字段和调用示例以接口 Markdown 为准：https://www.gugudata.com/api/details/college/llm.md

### 全国大学高校专业数据

- 业务角色：专业基础库
- 调用阶段：教育校验
- 接口地址：`GET https://api.gugudata.com/metadata/ceemajor`
- 产出用途：用于关联专业名称。
- 参数来源：院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询；分页参数由调用方控制，用于分批读取结果
- 接口资料：详情页 https://www.gugudata.com/api/details/ceemajor；接口 Markdown https://www.gugudata.com/api/details/ceemajor/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `keywords` | 否 | `string` | - | 搜索关键字，模糊匹配专业名称、学科、专业介绍、开设课程。参数值为空则分页返回所有数据 | 院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询 |
| `pageindex` | 否 | `integer` | 1 | 页码，第几页数据，第一页从 1 开始 | 分页参数由调用方控制，用于分批读取结果 |
| `pagesize` | 否 | `integer` | 10 | 每页数据量，参数最大值为 20 | 分页参数由调用方控制，用于分批读取结果 |

### 历年高校招生计划数据

- 业务角色：招生计划
- 调用阶段：教育校验
- 接口地址：`GET https://api.gugudata.com/metadata/college-enrollment-plan`
- 产出用途：用于校验简章中的招生计划。
- 参数来源：`year` 使用考生关注的招生年份、考试年份或历史对比年份；分页参数由调用方控制，用于分批读取结果；`SchoolUUID` 来自院校基础信息查询结果，也可以由用户指定院校后查询获得；院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询
- 可参考的相关能力：历年高校招生计划数据-查询参数枚举、历年高校招生计划数据-院校招生代码查询
- 接口资料：详情页 https://www.gugudata.com/api/details/collegeenrollmentplan；接口 Markdown https://www.gugudata.com/api/details/collegeenrollmentplan/llm.md

关键请求参数：

| 参数 | 必填 | 类型 | 默认值 | 说明 | 来源与传递 |
| --- | --- | --- | --- | --- | --- |
| `year` | 是 | `integer` | - | 查询的招生年份，当前支持 2018 至 2026；2026 数据随各省发布进度持续补齐。 | `year` 使用考生关注的招生年份、考试年份或历史对比年份 |
| `pageIndex` | 是 | `integer` | 1 | 分页页码，从 1 开始。 | 分页参数由调用方控制，用于分批读取结果 |
| `pageSize` | 是 | `integer` | 10 | 每页数量，取值范围为 1~100。 | 分页参数由调用方控制，用于分批读取结果 |
| `schooluuid` | 否 | `string` | - | 高校唯一标识，适合与高校基础数据、分数线接口进行关联。 | `SchoolUUID` 来自院校基础信息查询结果，也可以由用户指定院校后查询获得 |
| `schoolname` | 否 | `string` | - | 高校名称，支持模糊查询。 | 院校名称、关键词或地区由用户输入，必要时先用院校库做模糊查询 |
| `collegemajorname` | 否 | `string` | - | 查询的高校专业名称，支持模糊查询。 | 专业名称来自用户偏好、专业库或招生计划明细 |
| `provincename` | 否 | `string` | - | 招生省份名称，可先调用关联接口获取当前年份可用省份。 | 省份参数需要区分考生所在省份、招生省份和院校所在地 |
| `batchname` | 否 | `string` | - | 录取批次名称，可先调用关联接口获取当前年份和省份下的可用批次。 | 批次参数来自目标省份和年份下可用的批次枚举 |
| `type` | 否 | `string` | - | 科类/选科类型，可先调用关联接口获取当前年份和省份下的可用科类。 | 科类或选科来自用户所在省份当年的可选枚举 |
| `classone` | 否 | `string` | - | 专业门类/一级分类，可先调用关联接口获取可用枚举。 | 由用户输入、业务筛选条件或上一轮接口结果确定。 |

完整请求参数、响应字段和调用示例以接口 Markdown 为准：https://www.gugudata.com/api/details/collegeenrollmentplan/llm.md

## 数据校验与使用边界

- 扫描件、复杂表格和图片化 PDF 会影响抽取准确性。
- 招生政策、专业组和计划人数可能变动，必须以官方资料复核。
- 涉及个人信息的材料需要脱敏和人工审核。

## 输出建议

- 输出归档结果时包含原文链接、解析文本、摘要、关键词、关联院校和复核项。
- 字段抽取应区分已确认、待确认和无法判断。
- 资料库页面建议保留原始文件入口和解析时间。

## 常见问题

- 问：什么情况下应该使用这个 Skill？ 答：当用户提出的目标需要多个咕咕数据公开 API 组合完成，而不是只查询一个接口时，优先阅读这个 Skill。
- 问：这个 Skill 是否需要单独购买？ 答：不需要。Skill 文档只负责业务流程和接口选型，具体接口购买、价格和账号权益仍以接口详情页为准。
- 问：Agent 应该怎样使用这个 Skill？ 答：Agent 应先阅读 SKILL.md，确认业务场景和推荐工作流，再进入接口详情页核对参数、响应字段、价格和调用示例。
- 问：调用接口前需要先核对什么？ 答：需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
- 问：招生简章与院校资料归档 Skill 会替代接口文档吗？ 答：不会。Skill 负责说明业务组合和调用顺序，接口参数、响应结构、计费和购买入口仍以接口详情页为准。