招生简章与院校资料归档 Skill 查看原始 SKILL.md

招生简章与院校资料归档 Skill

面向招生简章归档、院校资料库、PDF 资料整理和教育内容入库的公开 API 组合。

业务场景

用于招生简章归档、院校资料库、PDF 资料整理、教育内容入库和院校文档检索。适合把 HTML/PDF/Word 转换、PDF 文本提取、摘要、关键词、隐私信息去除、院校库、专业库和招生计划组合成资料归档链路。

  • 数据范围:覆盖 HTML 转 PDF、PDF 文本提取、PDF 格式化、PDF 转 HTML、Word 转 HTML、PDF 摘要、关键词、隐私信息去除、院校基础信息、专业基础信息和招生计划。
  • 关键数据维度:文档维度:文件格式、页码、来源 URL、抓取时间、学校名称和年份。;教育维度:院校、专业、招生计划、批次、选科和地区。;治理维度:脱敏状态、复核字段、来源链接和归档版本。

何时使用

  • 把招生简章、院校资料、专业介绍和网页资料转成可检索文本。
  • 抽取院校、专业、年份、招生计划等关键字段并与公开数据交叉核对。
  • 对报名材料或扫描件做摘要、脱敏、标签和归档。

不适用场景

  • 用户只需要查看某一个接口的完整参数、响应字段、价格或购买入口时,直接打开接口详情页。
  • 用户希望绕过接口开通、鉴权、配额或人工复核要求时,不应使用 Skill 作为替代。
  • 任务需要法律、医疗、金融投资或升学录取的最终决策时,Skill 只能提供数据辅助和复核线索。

用户需要提供的信息

  • 招生简章、院校 PDF、Word、HTML 页面、目标院校、年份、专业、隐私处理要求和归档格式。
  • 是否需要 OCR、PDF 转 HTML、正文抽取、摘要、关键词、脱敏或和院校基础数据关联。
  • 调用接口所需的 AppKey、开通状态和接口详情页限制。

推荐工作流

  1. 先把招生资料通过 PDF、HTML 或 Word 转换接口解析成文本。
  2. 再用摘要、关键词和隐私信息去除接口生成归档字段。
  3. 最后与院校库、专业库和招生计划接口交叉校验。

参数传递关系

  • 招生资料先通过 PDF、HTML 或 Word 转换接口生成文本,再传给摘要、关键词和隐私信息去除接口。
  • 文档中的院校名称、专业名称、年份和计划信息需要与院校库、专业库和招生计划接口交叉校验。
  • 如果资料来自网页,先保存原 URL、抓取时间和转换后的 HTML/PDF,后续归档使用同一来源。
  • 归档结果应保留原文件、解析文本、摘要、标签和关联的院校或专业标识。

典型任务模板

  • 招生简章入库:输入 PDF 或网页 URL;输出原文、摘要、关键词、院校关联和待复核字段。
  • 专业资料整理:输入专业名称和院校资料;输出专业介绍、招生计划匹配和资料来源。
  • 隐私检查:输入报名资料或扫描件;输出脱敏文本、风险字段和人工复核建议。

接口与关键参数

统一鉴权:调用接口前需要准备咕咕数据 AppKey。推荐在服务端通过 Header 传递 AppKey;历史 Query 参数 appkey 仍以接口详情页说明为准。

HTML/URL 转 PDF

  • 业务角色:HTML 转 PDF
  • 调用阶段:资料保存
  • 接口地址:POST https://api.gugudata.com/imagerecognition/html2pdf
  • 产出用途:用于保存招生网页或简章页面。
  • 参数来源:科类或选科来自用户所在省份当年的可选枚举;文本内容来自用户输入、网页正文抽取或文档识别结果;文件或图片来自用户上传、公开 URL 或上一轮转换结果
  • 接口详情页:https://www.gugudata.com/api/details/html2pdf
  • 接口 Markdown:https://www.gugudata.com/api/details/html2pdf/llm.md

关键请求参数:

参数必填类型默认值说明来源与传递
typestringYOUR_VALUE可选参数为 HTML 或 URL(注意,当类型为 URL 时,需要保证页面可以正常请求,我们的接口不解决加密页面、反爬虫页面等不能正常返回 HTML 的页面请求)科类或选科来自用户所在省份当年的可选枚举
contentstringYOUR_VALUE内容正文,如果 type=HTML,那么传递 HTML 内容;如果 type=URL,那么传递需要存储为 PDF 的站点 URL 即可文本内容来自用户输入、网页正文抽取或文档识别结果
landscapeinteger0控制生成 PDF 是否为横向页面模式,传递 1 控制页面横向渲染模式,默认为 0由用户输入、业务筛选条件或上一轮接口结果确定。
showpagesinteger0控制生成的 PDF 是否在页脚包含页码信息,传递 1 控制页脚生成页码,默认为 0由用户输入、业务筛选条件或上一轮接口结果确定。
filenamestringN/A可选参数,控制生成的文件名称,不需要后缀文件或图片来自用户上传、公开 URL 或上一轮转换结果
storagestringpublic文件存储方式,可选 public 或 private。默认 public 返回公开下载地址;private 存入私有存储,返回 file_id,需生成短期下载链接后下载。由用户输入、业务筛选条件或上一轮接口结果确定。

通用 PDF 文件流 OCR 到文本

关键请求参数:

参数必填类型默认值说明来源与传递
pdffilestring/binaryYOUR_VALUEformdata 文件流文件或图片来自用户上传、公开 URL 或上一轮转换结果

PDF 解析格式化输出

关键请求参数:

参数必填类型默认值说明来源与传递
typestringYOUR_VALUE定义输出格式,可选 text|html|xml|tag科类或选科来自用户所在省份当年的可选枚举
pdffilestring/binaryYOUR_VALUE文件格式参数,待转换的 PDF 文件文件或图片来自用户上传、公开 URL 或上一轮转换结果

PDF 转 HTML

关键请求参数:

参数必填类型默认值说明来源与传递
filestring/binaryYOUR_VALUEformdata 文件流文件或图片来自用户上传、公开 URL 或上一轮转换结果
storagestringpublic文件存储方式,可选 public 或 private。默认 public 返回公开下载地址;private 存入私有存储,返回 file_id,需生成短期下载链接后下载。由用户输入、业务筛选条件或上一轮接口结果确定。

Word 转 HTML

关键请求参数:

参数必填类型默认值说明来源与传递
filestring/binary-Word 文档文件,支持 .doc 和 .docx 格式文件或图片来自用户上传、公开 URL 或上一轮转换结果
storagestringpublic文件存储方式,可选 public 或 private。默认 public 返回公开下载地址;private 存入私有存储,返回 file_id,需生成短期下载链接后下载。由用户输入、业务筛选条件或上一轮接口结果确定。

PDF 全文多语言 AI 摘要

关键请求参数:

参数必填类型默认值说明来源与传递
filestring/binary-通过 multipart/form-data 上传的 PDF 文件。文件或图片来自用户上传、公开 URL 或上一轮转换结果
langstringzh摘要语言,例如 zh、en;为空时使用默认语言。由用户输入、业务筛选条件或上一轮接口结果确定。
streamingbooleanfalse是否使用流式返回,默认 false。由用户输入、业务筛选条件或上一轮接口结果确定。

多语言长文本 AI 关键字提取

关键请求参数:

参数必填类型默认值说明来源与传递
textContentstringN/A需要提取关键词的文本内容文本内容来自用户输入、网页正文抽取或文档识别结果
keywordMaxLengthinteger5单个关键字长度限制,不传递默认长度为 5 个字符关键词由用户输入或从上一轮内容抽取结果中生成
streamingbooleanfalse是否流式响应,如果为 true,那么接口会流式输出纯文本,在最后一个消息输出完整结果的 JSON。由用户输入、业务筛选条件或上一轮接口结果确定。

个人可识别信息(PII) AI 去除

关键请求参数:

参数必填类型默认值说明来源与传递
contentstring-需要去除个人信息的文本内容文本内容来自用户输入、网页正文抽取或文档识别结果
streamingbooleanfalse是否流式响应,如果为 true,那么接口会流式输出纯文本,在最后一个消息输出完整结果的 JSON。由用户输入、业务筛选条件或上一轮接口结果确定。

全国大学高校基础信息

  • 业务角色:院校基础库
  • 调用阶段:教育校验
  • 接口地址:GET https://api.gugudata.com/location/college
  • 产出用途:用于关联院校主体。
  • 参数来源:院校名称、关键词或地区由用户输入,必要时先用院校库做模糊查询;SchoolUUID 来自院校基础信息查询结果,也可以由用户指定院校后查询获得;分页参数由调用方控制,用于分批读取结果;科类或选科来自用户所在省份当年的可选枚举
  • 接口详情页:https://www.gugudata.com/api/details/college
  • 接口 Markdown:https://www.gugudata.com/api/details/college/llm.md

关键请求参数:

参数必填类型默认值说明来源与传递
keywordsstringKEYWORDS搜索关键字,模糊匹配高校名称、省市区、高校旧称、地址字段,参数值为空则返回所有数据院校名称、关键词或地区由用户输入,必要时先用院校库做模糊查询
uuidstring-咕咕数据平台高校唯一 ID,可按响应字段 SchoolUUID 精确查询高校基础信息SchoolUUID 来自院校基础信息查询结果,也可以由用户指定院校后查询获得
pageindexinteger1页码,第几页数据,用于控制分页分页参数由调用方控制,用于分批读取结果
pagesizeinteger10每页数据量,参数最大值为 20,用于控制分页分页参数由调用方控制,用于分批读取结果
keywordstrictbooleanfalse控制 keyword 参数在查询时是否进行模糊查询,true 为精确匹配高校名称,默认值为 false 进行模糊查询,可模糊匹配高校名称、省市区、高校旧称、地址字段。参数值为空则返回所有数据院校名称、关键词或地区由用户输入,必要时先用院校库做模糊查询
collegecategorystring-学院类别,参数默认值为空,不进行筛选。参数可选枚举值:理工类|综合类|师范类|财经类|医药类|艺术类|农林类|军事类|政法类|语言类|体育类|民族类|其它由用户输入、业务筛选条件或上一轮接口结果确定。
collegetypestring-学院性质,参数默认值为空,不进行筛选。参数可选枚举值: 普通本科|远程教育学院|中外合作办学||独立学院|高职高专|HND项目|其它|成人教育|专科(高职)科类或选科来自用户所在省份当年的可选枚举
is985boolean-是否为 985 院校,需要参与查询则传参为:true由用户输入、业务筛选条件或上一轮接口结果确定。
is211boolean-是否为 211 院校,需要参与查询则传参为:true由用户输入、业务筛选条件或上一轮接口结果确定。
isdualclassboolean-是否为双一流院校,需要参与查询则传参为:true由用户输入、业务筛选条件或上一轮接口结果确定。

完整请求参数、响应字段和调用示例以接口 Markdown 为准:https://www.gugudata.com/api/details/college/llm.md

全国大学高校专业数据

关键请求参数:

参数必填类型默认值说明来源与传递
keywordsstring-搜索关键字,模糊匹配专业名称、学科、专业介绍、开设课程。参数值为空则分页返回所有数据院校名称、关键词或地区由用户输入,必要时先用院校库做模糊查询
pageindexinteger1页码,第几页数据,第一页从 1 开始分页参数由调用方控制,用于分批读取结果
pagesizeinteger10每页数据量,参数最大值为 20分页参数由调用方控制,用于分批读取结果

历年高校招生计划数据

  • 业务角色:招生计划
  • 调用阶段:教育校验
  • 接口地址:GET https://api.gugudata.com/metadata/college-enrollment-plan
  • 产出用途:用于校验简章中的招生计划。
  • 参数来源:year 使用考生关注的招生年份、考试年份或历史对比年份;分页参数由调用方控制,用于分批读取结果;SchoolUUID 来自院校基础信息查询结果,也可以由用户指定院校后查询获得;院校名称、关键词或地区由用户输入,必要时先用院校库做模糊查询
  • 可参考的相关能力:历年高校招生计划数据-查询参数枚举、历年高校招生计划数据-院校招生代码查询
  • 接口详情页:https://www.gugudata.com/api/details/collegeenrollmentplan
  • 接口 Markdown:https://www.gugudata.com/api/details/collegeenrollmentplan/llm.md

关键请求参数:

参数必填类型默认值说明来源与传递
yearinteger-查询的招生年份,当前支持 2018 至 2026;2026 数据随各省发布进度持续补齐。year 使用考生关注的招生年份、考试年份或历史对比年份
pageIndexinteger1分页页码,从 1 开始。分页参数由调用方控制,用于分批读取结果
pageSizeinteger10每页数量,取值范围为 1~100。分页参数由调用方控制,用于分批读取结果
schooluuidstring-高校唯一标识,适合与高校基础数据、分数线接口进行关联。SchoolUUID 来自院校基础信息查询结果,也可以由用户指定院校后查询获得
schoolnamestring-高校名称,支持模糊查询。院校名称、关键词或地区由用户输入,必要时先用院校库做模糊查询
collegemajornamestring-查询的高校专业名称,支持模糊查询。专业名称来自用户偏好、专业库或招生计划明细
provincenamestring-招生省份名称,可先调用关联接口获取当前年份可用省份。省份参数需要区分考生所在省份、招生省份和院校所在地
batchnamestring-录取批次名称,可先调用关联接口获取当前年份和省份下的可用批次。批次参数来自目标省份和年份下可用的批次枚举
typestring-科类/选科类型,可先调用关联接口获取当前年份和省份下的可用科类。科类或选科来自用户所在省份当年的可选枚举
classonestring-专业门类/一级分类,可先调用关联接口获取可用枚举。由用户输入、业务筛选条件或上一轮接口结果确定。

完整请求参数、响应字段和调用示例以接口 Markdown 为准:https://www.gugudata.com/api/details/collegeenrollmentplan/llm.md

数据校验与使用边界

  • 扫描件、复杂表格和图片化 PDF 会影响抽取准确性。
  • 招生政策、专业组和计划人数可能变动,必须以官方资料复核。
  • 涉及个人信息的材料需要脱敏和人工审核。

输出建议

  • 输出归档结果时包含原文链接、解析文本、摘要、关键词、关联院校和复核项。
  • 字段抽取应区分已确认、待确认和无法判断。
  • 资料库页面建议保留原始文件入口和解析时间。

常见问题

  • 问:什么情况下应该使用这个 Skill? 答:当用户提出的目标需要多个咕咕数据公开 API 组合完成,而不是只查询一个接口时,优先阅读这个 Skill。
  • 问:这个 Skill 是否需要单独购买? 答:不需要。Skill 文档只负责业务流程和接口选型,具体接口购买、价格和账号权益仍以接口详情页为准。
  • 问:Agent 应该怎样使用这个 Skill? 答:Agent 应先阅读 SKILL.md,确认业务场景和推荐工作流,再进入接口详情页核对参数、响应字段、价格和调用示例。
  • 问:调用接口前需要先核对什么? 答:需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
  • 问:招生简章与院校资料归档 Skill 会替代接口文档吗? 答:不会。Skill 负责说明业务组合和调用顺序,接口参数、响应结构、计费和购买入口仍以接口详情页为准。