回声笔AI PDF OCR API - 高分辨率文档智能解析

回声笔AI PDF OCR接口基于解耦视觉-语言模型,支持高分辨率文档解析、复杂数学公式识别、表格结构提取,适用于学术论文、技术文档等场景。

PDF OCR接口

规划中

技术概述

基于解耦视觉-语言模型的高分辨率文档解析技术,实现对PDF文档的全面、精细化识别与结构化提取。

核心特性

1. 全面且细致的布局分析

不仅保留主体内容,还完整识别页眉、页脚、页码等非主体元素,确保文档内容完整性。采用更精细和标准化的标注方案,使列表、引用等元素表示更加清晰和结构化。

{
  "elements": [
    {"type": "header", "text": "页眉内容"},
    {"type": "paragraph", "text": "正文段落"},
    {"type": "list", "items": ["列表项1", "列表项2"]},
    {"type": "blockquote", "text": "引用内容"},
    {"type": "footer", "text": "页码: 1"}
  ]
}

2. 公式解析的突破

高质量解析复杂的长数学公式,准确识别混合语言(中文-英文)的方程。

支持场景:

  • 多行复杂公式
  • 嵌套分数、根号、积分
  • 中英文混合公式
  • 上下标、矩阵、行列式
{
  "type": "formula",
  "latex": "E = mc^2",
  "text": "质能方程"
}

3. 增强的表格解析鲁棒性

轻松处理各种复杂表格情况:

表格类型说明
旋转表格倾斜或旋转的表格
无边框表格仅通过空白对齐的表格
部分边框表格只有部分线条的表格
跨页表格分布在多页的表格
嵌套表格单元格内包含子表格

支持格式

格式说明
标准PDF文本型PDF文档
扫描件PDF扫描生成的图像PDF
图文混排PDF包含图片和文字的PDF

接口预览

POST https://api.llmapi.fit/completion/ocr
Content-Type: multipart/form-data
Authorization: Bearer YOUR_API_KEY

请求参数

参数名类型必填说明
filefilePDF文档文件
output_formatstring输出格式:text/json/markdown,默认json

输出格式说明

格式说明适用场景
text纯文本内容仅需文档文字,无需结构
json结构化JSON需要完整布局、公式、表格信息
markdownMarkdown格式保留排版,便于阅读和编辑

响应示例

JSON格式(默认):

{
  "code": "success",
  "data": {
    "pages": [
      {
        "page_number": 1,
        "elements": [
          {
            "type": "heading",
            "level": 1,
            "text": "论文标题"
          },
          {
            "type": "formula",
            "latex": "\\int_{a}^{b} f(x)dx = F(b) - F(a)",
            "bounding_box": {"x": 100, "y": 200, "w": 300, "h": 50}
          },
          {
            "type": "table",
            "headers": ["实验组", "对照组"],
            "rows": [["数据1", "数据2"]],
            "has_border": false
          }
        ]
      }
    ]
  }
}

Text格式:

{
  "code": "success",
  "data": {
    "text": "论文标题\n\n本文研究了...\n\n实验组 | 对照组\n数据1 | 数据2"
  }
}

Markdown格式:

{
  "code": "success",
  "data": {
    "markdown": "# 论文标题\n\n本文研究了...\n\n| 实验组 | 对照组 |\n|--------|--------|\n| 数据1 | 数据2 |"
  }
}

使用场景

  1. 学术论文处理 - 提取公式、表格、引用等复杂元素
  2. 技术文档数字化 - 保留原始排版结构
  3. 档案资料整理 - 处理扫描版历史文档
  4. 试卷识别 - 解析包含公式的教育材料

预计上线时间

2025年Q4

预约通知

如果您对此功能感兴趣,可以联系工作人员预约:

  • 📧 微信:GDDMDD