文档转换与文件处理 Skill 查看原始 SKILL.md

文档转换与文件处理 Skill

面向 PDF、Word、HTML、Markdown、PPT 与图片转换、拆分、识别和内容归档的公开 API 组合。

业务场景

用于文档自动化、内容归档、合同处理、报告生成和格式转换。适合把 PDF、Word、HTML、Markdown、PPT、图片和 OCR 相关接口组合成文档采集、转换、拆分和整理链路。

适合解决的问题

  • 把网页、PDF、Word、Markdown、HTML 或图片转换为业务需要的格式。
  • 拆分、压缩、识别或整理文档,方便归档和后续处理。
  • 为报告生成、资料入库、合同流转和内容发布准备文档数据。

数据范围

覆盖 URL/HTML/Markdown/PDF/Word/PPT/图片相关转换、PDF 拆分、文档摘要、OCR、图片压缩和文档内容整理。

关键数据维度

  • 文件维度:文件类型、页数、大小、来源 URL、转换目标和输出格式。
  • 内容维度:正文、标题、段落、表格、图片、OCR 结果和摘要。
  • 处理维度:转换、拆分、压缩、识别、提取和归档。

推荐工作流

  • 先按输入格式选择解析或转换接口。
  • 再根据结果输出 PDF、Word、HTML、图片或纯文本。
  • 需要分段处理时,先拆分 PDF 或转换成中间格式。

示例任务

  • 用户需要:把网页、PDF、Word、Markdown、HTML 或图片转换为业务需要的格式。
  • 用户需要:拆分、压缩、识别或整理文档,方便归档和后续处理。
  • 用户需要:为报告生成、资料入库、合同流转和内容发布准备文档数据。

输出格式示例

  • 建议输出:输出文档处理结果时说明原始格式、目标格式、页数和失败项。
  • 建议输出:对批量任务给出成功、失败、需人工处理的清单。
  • 建议输出:对摘要或抽取内容保留原文件链接或文件名以便追溯。

数据校验与使用边界

  • 转换前确认文件格式、大小限制、页数和目标格式。
  • OCR、格式转换和内容抽取可能受扫描质量、字体、版式和图片清晰度影响。
  • 合同、财务、法律等重要文档需要人工复核。

输出建议

  • 输出文档处理结果时说明原始格式、目标格式、页数和失败项。
  • 对批量任务给出成功、失败、需人工处理的清单。
  • 对摘要或抽取内容保留原文件链接或文件名以便追溯。

常见边界场景

  • 如果遇到此类情况,需要提示用户:转换前确认文件格式、大小限制、页数和目标格式。
  • 如果遇到此类情况,需要提示用户:OCR、格式转换和内容抽取可能受扫描质量、字体、版式和图片清晰度影响。
  • 如果遇到此类情况,需要提示用户:合同、财务、法律等重要文档需要人工复核。

常见问题

  • 问:什么情况下应该使用这个 Skill? 答:当用户提出的目标需要多个咕咕数据公开 API 组合完成,而不是只查询一个接口时,优先阅读这个 Skill。
  • 问:这个 Skill 是否需要单独购买? 答:不需要。Skill 文档只负责业务流程和接口选型,具体接口购买、价格和账号权益仍以接口详情页为准。
  • 问:Agent 应该怎样使用这个 Skill? 答:Agent 应先阅读 SKILL.md,确认业务场景和推荐工作流,再进入接口详情页核对参数、响应字段、价格和调用示例。
  • 问:调用接口前需要先核对什么? 答:需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
  • 问:文档转换与文件处理 Skill 会替代接口文档吗? 答:不会。Skill 负责说明业务组合和调用顺序,接口参数、响应结构、计费和购买入口仍以接口详情页为准。