回声笔AI PDF OCR API - 高分辨率文档智能解析

回声笔AI PDF OCR接口基于解耦视觉-语言模型，支持高分辨率文档解析、复杂数学公式识别、表格结构提取，适用于学术论文、技术文档等场景。

PDF OCR接口

规划中

技术概述

基于解耦视觉-语言模型的高分辨率文档解析技术，实现对PDF文档的全面、精细化识别与结构化提取。

核心特性

1. 全面且细致的布局分析

不仅保留主体内容，还完整识别页眉、页脚、页码等非主体元素，确保文档内容完整性。采用更精细和标准化的标注方案，使列表、引用等元素表示更加清晰和结构化。

{
  "elements": [
    {"type": "header", "text": "页眉内容"},
    {"type": "paragraph", "text": "正文段落"},
    {"type": "list", "items": ["列表项1", "列表项2"]},
    {"type": "blockquote", "text": "引用内容"},
    {"type": "footer", "text": "页码: 1"}
  ]
}

2. 公式解析的突破

高质量解析复杂的长数学公式，准确识别混合语言（中文-英文）的方程。

支持场景：

多行复杂公式
嵌套分数、根号、积分
中英文混合公式
上下标、矩阵、行列式

{
  "type": "formula",
  "latex": "E = mc^2",
  "text": "质能方程"
}

3. 增强的表格解析鲁棒性

轻松处理各种复杂表格情况：

表格类型	说明
旋转表格	倾斜或旋转的表格
无边框表格	仅通过空白对齐的表格
部分边框表格	只有部分线条的表格
跨页表格	分布在多页的表格
嵌套表格	单元格内包含子表格

支持格式

格式	说明
标准PDF	文本型PDF文档
扫描件PDF	扫描生成的图像PDF
图文混排PDF	包含图片和文字的PDF

接口预览

POST https://api.llmapi.fit/completion/ocr
Content-Type: multipart/form-data
Authorization: Bearer YOUR_API_KEY

请求参数

参数名	类型	必填	说明
`file`	file	是	PDF文档文件
`output_format`	string	否	输出格式：`text`/`json`/`markdown`，默认`json`

输出格式说明

格式	说明	适用场景
`text`	纯文本内容	仅需文档文字，无需结构
`json`	结构化JSON	需要完整布局、公式、表格信息
`markdown`	Markdown格式	保留排版，便于阅读和编辑

响应示例

JSON格式（默认）：

{
  "code": "success",
  "data": {
    "pages": [
      {
        "page_number": 1,
        "elements": [
          {
            "type": "heading",
            "level": 1,
            "text": "论文标题"
          },
          {
            "type": "formula",
            "latex": "\\int_{a}^{b} f(x)dx = F(b) - F(a)",
            "bounding_box": {"x": 100, "y": 200, "w": 300, "h": 50}
          },
          {
            "type": "table",
            "headers": ["实验组", "对照组"],
            "rows": [["数据1", "数据2"]],
            "has_border": false
          }
        ]
      }
    ]
  }
}

Text格式：

{
  "code": "success",
  "data": {
    "text": "论文标题\n\n本文研究了...\n\n实验组 | 对照组\n数据1 | 数据2"
  }
}

Markdown格式：

{
  "code": "success",
  "data": {
    "markdown": "# 论文标题\n\n本文研究了...\n\n| 实验组 | 对照组 |\n|--------|--------|\n| 数据1 | 数据2 |"
  }
}

使用场景

学术论文处理 - 提取公式、表格、引用等复杂元素
技术文档数字化 - 保留原始排版结构
档案资料整理 - 处理扫描版历史文档
试卷识别 - 解析包含公式的教育材料

预计上线时间

2025年Q4

预约通知

如果您对此功能感兴趣，可以联系工作人员预约：

📧 微信：GDDMDD