• API 功能

    • 通用的识别接口, 支持标准 PDF 文件解析;
    • 多种格式输出,支持 TEXT HTML XML TAG;
    • HTML 包含完美排版格式;
    • 基于机器学习不断提高的识别率;
    • 1M 文件毫秒级识别性能;
    • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
    • 全面兼容 Apple ATS;
    • 全国多节点 CDN 部署;
    • 接口极速响应,多台服务器构建 API 接口负载均衡。
    • 接口调用状态与状态监控
  • API 文档

    接口地址: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

    返回格式: application/json; charset=utf-8

    请求方式: POST

    请求协议: HTTPS

    请求示例: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

    数据预览: https://www.gugudata.com/preview/pdf2format

    接口测试:  https://api.gugudata.com/imagerecognition/pdf2format/demo

    OpenAPI: https://www.gugudata.com/openapi/gugudata.openapi.3.1.json

    请求参数(POST 请求参数以 application/x-www-form-urlencoded 格式、文件流以 formdata 格式传递,具体可参见下方示例代码)

    参数名 参数类型 是否必须 默认值 备注
    appkey string YOUR_APPKEY 付费后获取的 APPKEY
    type string YOUR_VALUE 定义输出格式,可选 text|html|xml|tag
    pdffile string/binary YOUR_VALUE 文件格式参数,待转换的 PDF 文件

    返回参数

    参数名 参数类型 备注
    DataStatus.StatusCode integer 接口返回状态码
    DataStatus.StatusDescription string 接口返回状态说明
    DataStatus.ResponseDateTime string 接口数据返回时间
    DataStatus.DataTotalCount integer 此条件下的总数据量,一般用于分页计算
    Data.Data string 接口解析 PDF 返回数据,格式由 type 参数决定
  • 接口 HTTP 响应标准状态码

    状态码 状态码解释 备注
    200 接口正常响应 请求成功,业务状态请结合响应体中的自定义业务码判断。
    400 请求参数错误 请求参数缺失、格式错误或参数组合不合法。
    401 鉴权失败 缺少 appkey 或 appkey 无效。
    403 无权限访问 订单到期、权限不足或接口额度不可用。
    404 资源不存在 请求路径不存在。
    405 请求方法不允许 当前路径不支持该 HTTP 方法。
    415 请求内容类型不支持 上传或请求体的内容类型不符合接口要求。
    429 请求频率受限 请求频率超过服务限制,请适当降低调用速率。
    500 服务内部错误 服务端处理异常,请稍后重试。
    502 上游依赖错误 上游依赖服务不可用或返回异常。
  • 接口自定义状态码

    自定义状态码 自定义状态码解释 备注
    100 正常返回
    101 参数错误
    102 请求频率受限 每秒请求不能超过 100 次
    103 账号欠费
    104 APPKEY 错误 请检查传递的 APPKEY 是否为开发者中心获取到的值
    110 接口响应错误
  • 请求示例代码
    curl --location 'https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}' \
    --form 'pdffile=@localfile_path.png'
    #include <curl/curl.h>
    
    int main(void) {
      CURL *curl = curl_easy_init();
      if (curl) {
        curl_easy_setopt(curl, CURLOPT_URL, "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}");
        curl_easy_setopt(curl, CURLOPT_CUSTOMREQUEST, "POST");
        curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
        curl_mime *mime = curl_mime_init(curl);
        curl_mimepart *part = NULL;
        part = curl_mime_addpart(mime);
        curl_mime_name(part, "pdffile");
        curl_mime_filedata(part, "localfile_path.png");
        curl_easy_setopt(curl, CURLOPT_MIMEPOST, mime);
        CURLcode res = curl_easy_perform(curl);
        (void)res;
        curl_mime_free(mime);
        curl_easy_cleanup(curl);
      }
      return 0;
    }
    
    using System;
    using System.Collections.Generic;
    using System.IO;
    using System.Net.Http;
    
    var client = new HttpClient();
    var request = new HttpRequestMessage(HttpMethod.Post, "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}");
    var content = new MultipartFormDataContent();
    content.Add(new StreamContent(File.OpenRead("localfile_path.png")), "pdffile", "localfile_path.png");
    request.Content = content;
    var response = client.SendAsync(request).Result;
    Console.WriteLine(response.Content.ReadAsStringAsync().Result);
    
    package main
    
    import (
      "bytes"
      "mime/multipart"
      "os"
      "path/filepath"
      "fmt"
      "io"
      "net/http"
    )
    
    func main() {
      url := "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}"
      payload := &bytes.Buffer{}
      writer := multipart.NewWriter(payload)
      file, err := os.Open("localfile_path.png")
      if err != nil {
        fmt.Println(err)
        return
      }
      defer file.Close()
      part, err := writer.CreateFormFile("pdffile", filepath.Base("localfile_path.png"))
      if err != nil {
        fmt.Println(err)
        return
      }
      if _, err = io.Copy(part, file); err != nil {
        fmt.Println(err)
        return
      }
      if err := writer.Close(); err != nil {
        fmt.Println(err)
        return
      }
      req, err := http.NewRequest("POST", url, payload)
      if err != nil {
        fmt.Println(err)
        return
      }
      req.Header.Set("Content-Type", writer.FormDataContentType())
      res, err := http.DefaultClient.Do(req)
      if err != nil {
        fmt.Println(err)
        return
      }
      defer res.Body.Close()
      body, err := io.ReadAll(res.Body)
      if err != nil {
        fmt.Println(err)
        return
      }
      fmt.Println(string(body))
    }
    
    OkHttpClient client = new OkHttpClient().newBuilder().build();
    RequestBody body = new MultipartBody.Builder().setType(MultipartBody.FORM)
      .addFormDataPart("pdffile", "localfile_path.png",
        RequestBody.create(MediaType.parse("application/octet-stream"), new File("localfile_path.png")))
      .build();
    Request request = new Request.Builder()
      .url("https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}")
      .method("POST", body)
      .build();
    Response response = client.newCall(request).execute();
    System.out.println(response.body().string());
    
    var form = new FormData();
    form.append("pdffile", fileInput.files[0], "localfile_path.png");
    
    $.ajax({
      url: "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}",
      method: "POST",
      data: form,
      processData: false,
      contentType: false
    }).done(function (response) {
      console.log(response);
    });
    
    const formData = new FormData();
    formData.append("pdffile", fileInput.files[0], "localfile_path.png");
    
    const response = await fetch("https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}", {
      method: "POST",
      body: formData
    });
    console.log(await response.text());
    
    import { readFile } from "node:fs/promises";
    
    const formData = new FormData();
    formData.append("pdffile", new Blob([await readFile("localfile_path.png")], { type: "application/octet-stream" }), "localfile_path.png");
    
    const response = await fetch("https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}", {
      method: "POST",
      body: formData
    });
    console.log(await response.text());
    
    #import <Foundation/Foundation.h>
    
    NSMutableURLRequest *request = [NSMutableURLRequest requestWithURL:[NSURL URLWithString:@"https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}"]];
    [request setHTTPMethod:@"POST"];
    NSString *boundary = [[NSUUID UUID] UUIDString];
    NSMutableData *body = [NSMutableData data];
    NSData *pdffileData = [NSData dataWithContentsOfFile:@"localfile_path.png"];
    [body appendData:[[NSString stringWithFormat:@"--%@\r\n", boundary] dataUsingEncoding:NSUTF8StringEncoding]];
    [body appendData:[@"Content-Disposition: form-data; name=\"pdffile\"; filename=\"localfile_path.png\"\r\n" dataUsingEncoding:NSUTF8StringEncoding]];
    [body appendData:[@"Content-Type: application/octet-stream\r\n\r\n" dataUsingEncoding:NSUTF8StringEncoding]];
    [body appendData:pdffileData];
    [body appendData:[@"\r\n" dataUsingEncoding:NSUTF8StringEncoding]];
    [body appendData:[[NSString stringWithFormat:@"--%@--\r\n", boundary] dataUsingEncoding:NSUTF8StringEncoding]];
    [request setValue:[NSString stringWithFormat:@"multipart/form-data; boundary=%@", boundary] forHTTPHeaderField:@"Content-Type"];
    [request setHTTPBody:body];
    NSURLSessionDataTask *task = [[NSURLSession sharedSession] dataTaskWithRequest:request completionHandler:^(NSData *data, NSURLResponse *response, NSError *error) {
      if (error) {
        NSLog(@"%@", error);
        return;
      }
      NSLog(@"%@", [[NSString alloc] initWithData:data encoding:NSUTF8StringEncoding]);
    }];
    [task resume];
    
    <?php
    $curl = curl_init();
    curl_setopt_array($curl, array(
      CURLOPT_URL => "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}",
      CURLOPT_RETURNTRANSFER => true,
      CURLOPT_FOLLOWLOCATION => true,
      CURLOPT_CUSTOMREQUEST => "POST",
      CURLOPT_POSTFIELDS => array(
        "pdffile" => new CURLFile("localfile_path.png", "application/octet-stream", "localfile_path.png"),
      ),
    ));
    $response = curl_exec($curl);
    curl_close($curl);
    echo $response;
    
    import requests
    
    url = "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}"
    payload = {  }
    files = {
        "pdffile": ("localfile_path.png", open("localfile_path.png", "rb"), "application/octet-stream"),
    }
    try:
        response = requests.post(url, data=payload, files=files)
        print(response.text)
    finally:
        for _, file_handle, _ in files.values():
            file_handle.close()
    
    require "uri"
    require "net/http"
    
    url = URI("https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}")
    https = Net::HTTP.new(url.host, url.port)
    https.use_ssl = true
    request = Net::HTTP::Post.new(url)
    files = [
      File.open("localfile_path.png"),
    ]
    begin
      form_data = [
        ["pdffile", files[0], { filename: "localfile_path.png" }],
      ]
      request.set_form form_data, "multipart/form-data"
      response = https.request(request)
      puts response.read_body
    ensure
      files.each(&:close)
    end
    
    import Foundation
    
    let semaphore = DispatchSemaphore(value: 0)
    var request = URLRequest(url: URL(string: "https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}")!, timeoutInterval: .infinity)
    request.httpMethod = "POST"
    let boundary = "Boundary-\(UUID().uuidString)"
    var body = Data()
    func appendString(_ value: String) { body.append(value.data(using: .utf8)!) }
    let pdffileData = try! Data(contentsOf: URL(fileURLWithPath: "localfile_path.png"))
    appendString("--\(boundary)\r\n")
    appendString("Content-Disposition: form-data; name=\"pdffile\"; filename=\"localfile_path.png\"\r\n")
    appendString("Content-Type: application/octet-stream\r\n\r\n")
    body.append(pdffileData)
    appendString("\r\n")
    appendString("--\(boundary)--\r\n")
    request.addValue("multipart/form-data; boundary=\(boundary)", forHTTPHeaderField: "Content-Type")
    request.httpBody = body
    let task = URLSession.shared.dataTask(with: request) { data, response, error in
      defer { semaphore.signal() }
      guard let data = data else {
        print(String(describing: error))
        return
      }
      print(String(data: data, encoding: .utf8)!)
    }
    task.resume()
    semaphore.wait()
    
  • 常见问题 Q&A

    • Q: 数据请求有缓存吗?

      A: 我们为所有数据请求提供实时响应。对于定期更新的数据,我们在其更新周期内实施缓存策略,以优化性能。

    • Q: 如何保证请求时 key 的安全性?

      A: 我们建议将对 API 的请求操作放置在您的应用程序后端。这样,前端请求只与您的后端服务交互,确保了更高的安全性和易于维护的架构。

    • Q: 接口可以用于哪些开发语言?

      A: 我们的接口支持所有能进行网络请求的开发语言,便于在各类项目中快速整合数据。

    • Q: 接口的性能可以保证吗?

      A: 我们的接口后台使用与商业级项目相同的架构,保证了稳定且高效的性能。您可以通过访问测试接口了解更多性能信息。

  • 服务协议以及服务免责声明

    用户应当充分阅读 服务协议 以及 服务免责声明 ,用户购买与使用咕咕数据 API 服务亦视为接受本协议。

  • 技术支持

    • 技术支持邮箱: support@gugudata.com
    • 微信客服: 客服链接

业务相关接口推荐

稳定提供服务 10 年 通用 PDF 文件流 OCR 到文本
  • 高可用图像识别引擎
  • 基于机器学习 / 高效文本提取
  • 1999元/年限时折扣 999元/年
查看详情 被调用于 2 秒前
50% 折扣
PDF 转 HTML
  • 高效 PDF 转 HTML 工具
  • 生成HTML站点 / 可永久存储
  • 999元/年限时折扣 499元/年
查看详情 被调用于 1 秒前
50% 折扣
PDF 分割拆分
  • 高效的 PDF 分割工具
  • 高效处理 / 可永久存储
  • 999元/年限时折扣 499元/年
查看详情 被调用于 5 秒前
50% 折扣
稳定提供服务 10 年 通用 PDF 文件流 OCR 到 Word
  • 高可用图像识别引擎
  • 基于机器学习 / 超精准识别率
  • 2999元/年限时折扣 999元/年
查看详情 被调用于 3 秒前
30% 折扣