回声笔AI PDF OCR API - 高分辨率文档智能解析
回声笔AI PDF OCR接口基于解耦视觉-语言模型,支持高分辨率文档解析、复杂数学公式识别、表格结构提取,适用于学术论文、技术文档等场景。
PDF OCR接口
规划中
技术概述
基于解耦视觉-语言模型的高分辨率文档解析技术,实现对PDF文档的全面、精细化识别与结构化提取。
核心特性
1. 全面且细致的布局分析
不仅保留主体内容,还完整识别页眉、页脚、页码等非主体元素,确保文档内容完整性。采用更精细和标准化的标注方案,使列表、引用等元素表示更加清晰和结构化。
{
"elements": [
{"type": "header", "text": "页眉内容"},
{"type": "paragraph", "text": "正文段落"},
{"type": "list", "items": ["列表项1", "列表项2"]},
{"type": "blockquote", "text": "引用内容"},
{"type": "footer", "text": "页码: 1"}
]
}
2. 公式解析的突破
高质量解析复杂的长数学公式,准确识别混合语言(中文-英文)的方程。
支持场景:
- 多行复杂公式
- 嵌套分数、根号、积分
- 中英文混合公式
- 上下标、矩阵、行列式
{
"type": "formula",
"latex": "E = mc^2",
"text": "质能方程"
}
3. 增强的表格解析鲁棒性
轻松处理各种复杂表格情况:
| 表格类型 | 说明 |
|---|---|
| 旋转表格 | 倾斜或旋转的表格 |
| 无边框表格 | 仅通过空白对齐的表格 |
| 部分边框表格 | 只有部分线条的表格 |
| 跨页表格 | 分布在多页的表格 |
| 嵌套表格 | 单元格内包含子表格 |
支持格式
| 格式 | 说明 |
|---|---|
| 标准PDF | 文本型PDF文档 |
| 扫描件PDF | 扫描生成的图像PDF |
| 图文混排PDF | 包含图片和文字的PDF |
接口预览
POST https://api.llmapi.fit/completion/ocr
Content-Type: multipart/form-data
Authorization: Bearer YOUR_API_KEY
请求参数
| 参数名 | 类型 | 必填 | 说明 |
|---|---|---|---|
file | file | 是 | PDF文档文件 |
output_format | string | 否 | 输出格式:text/json/markdown,默认json |
输出格式说明
| 格式 | 说明 | 适用场景 |
|---|---|---|
text | 纯文本内容 | 仅需文档文字,无需结构 |
json | 结构化JSON | 需要完整布局、公式、表格信息 |
markdown | Markdown格式 | 保留排版,便于阅读和编辑 |
响应示例
JSON格式(默认):
{
"code": "success",
"data": {
"pages": [
{
"page_number": 1,
"elements": [
{
"type": "heading",
"level": 1,
"text": "论文标题"
},
{
"type": "formula",
"latex": "\\int_{a}^{b} f(x)dx = F(b) - F(a)",
"bounding_box": {"x": 100, "y": 200, "w": 300, "h": 50}
},
{
"type": "table",
"headers": ["实验组", "对照组"],
"rows": [["数据1", "数据2"]],
"has_border": false
}
]
}
]
}
}
Text格式:
{
"code": "success",
"data": {
"text": "论文标题\n\n本文研究了...\n\n实验组 | 对照组\n数据1 | 数据2"
}
}
Markdown格式:
{
"code": "success",
"data": {
"markdown": "# 论文标题\n\n本文研究了...\n\n| 实验组 | 对照组 |\n|--------|--------|\n| 数据1 | 数据2 |"
}
}
使用场景
- 学术论文处理 - 提取公式、表格、引用等复杂元素
- 技术文档数字化 - 保留原始排版结构
- 档案资料整理 - 处理扫描版历史文档
- 试卷识别 - 解析包含公式的教育材料
预计上线时间
2025年Q4
预约通知
如果您对此功能感兴趣,可以联系工作人员预约:
- 📧 微信:GDDMDD