文档转换与文件处理 Skill
面向 PDF、Word、HTML、Markdown、PPT 与图片转换、拆分、识别和内容归档的公开 API 组合。
业务场景
用于文档自动化、内容归档、合同处理、报告生成和格式转换。适合把 PDF、Word、HTML、Markdown、PPT、图片和 OCR 相关接口组合成文档采集、转换、拆分和整理链路。
适合解决的问题
- 把网页、PDF、Word、Markdown、HTML 或图片转换为业务需要的格式。
- 拆分、压缩、识别或整理文档,方便归档和后续处理。
- 为报告生成、资料入库、合同流转和内容发布准备文档数据。
数据范围
覆盖 URL/HTML/Markdown/PDF/Word/PPT/图片相关转换、PDF 拆分、文档摘要、OCR、图片压缩和文档内容整理。
关键数据维度
- 文件维度:文件类型、页数、大小、来源 URL、转换目标和输出格式。
- 内容维度:正文、标题、段落、表格、图片、OCR 结果和摘要。
- 处理维度:转换、拆分、压缩、识别、提取和归档。
推荐工作流
- 先按输入格式选择解析或转换接口。
- 再根据结果输出 PDF、Word、HTML、图片或纯文本。
- 需要分段处理时,先拆分 PDF 或转换成中间格式。
示例任务
- 用户需要:把网页、PDF、Word、Markdown、HTML 或图片转换为业务需要的格式。
- 用户需要:拆分、压缩、识别或整理文档,方便归档和后续处理。
- 用户需要:为报告生成、资料入库、合同流转和内容发布准备文档数据。
输出格式示例
- 建议输出:输出文档处理结果时说明原始格式、目标格式、页数和失败项。
- 建议输出:对批量任务给出成功、失败、需人工处理的清单。
- 建议输出:对摘要或抽取内容保留原文件链接或文件名以便追溯。
数据校验与使用边界
- 转换前确认文件格式、大小限制、页数和目标格式。
- OCR、格式转换和内容抽取可能受扫描质量、字体、版式和图片清晰度影响。
- 合同、财务、法律等重要文档需要人工复核。
输出建议
- 输出文档处理结果时说明原始格式、目标格式、页数和失败项。
- 对批量任务给出成功、失败、需人工处理的清单。
- 对摘要或抽取内容保留原文件链接或文件名以便追溯。
常见边界场景
- 如果遇到此类情况,需要提示用户:转换前确认文件格式、大小限制、页数和目标格式。
- 如果遇到此类情况,需要提示用户:OCR、格式转换和内容抽取可能受扫描质量、字体、版式和图片清晰度影响。
- 如果遇到此类情况,需要提示用户:合同、财务、法律等重要文档需要人工复核。
常见问题
- 问:什么情况下应该使用这个 Skill? 答:当用户提出的目标需要多个咕咕数据公开 API 组合完成,而不是只查询一个接口时,优先阅读这个 Skill。
- 问:这个 Skill 是否需要单独购买? 答:不需要。Skill 文档只负责业务流程和接口选型,具体接口购买、价格和账号权益仍以接口详情页为准。
- 问:Agent 应该怎样使用这个 Skill? 答:Agent 应先阅读 SKILL.md,确认业务场景和推荐工作流,再进入接口详情页核对参数、响应字段、价格和调用示例。
- 问:调用接口前需要先核对什么? 答:需要核对业务对象、地区、时间范围、输入格式、必填参数、返回字段、购买状态和接口详情页中的限制说明。
- 问:文档转换与文件处理 Skill 会替代接口文档吗? 答:不会。Skill 负责说明业务组合和调用顺序,接口参数、响应结构、计费和购买入口仍以接口详情页为准。