paddleocr-doc-parsing

Skill

by bobholamovic

clawhub368/10

使用此技能从PDF和文档图像中提取结构化Markdown/JSON,包括精确到单元格的表格、LaTeX公式、图形、印章和图表等。

基于PaddleOCR将复杂PDF和文档图片智能解析为Markdown与JSON,保留表格、公式及原始版式结构,适配中文场景。

📊 商业分析

商业模式
freemium
独特价值
复杂PDF智能转Markdown/JSON保留原始结构,中文表格公式支持强
竞品
Adobe Acrobat PDF提取(商业闭源价格高)、Mathpix(侧重公式识别英文优先)、Marker(开源但中文复杂版式支持弱)

🎯 应用场景

使用场景
PDF文档内容提取图片文档结构化合同、报告、发票等复杂文档解析
适用领域
自然语言处理计算机视觉文档分析
目标用户
企业知识库建设团队RAG/LLM数据预处理开发者金融法律文档数字化从业者

📦 安装方式

openclaw install bobholamovic-paddleocr-doc-parsing
🔗 安装/下载链接 →

工具信息

类型
Skill
平台
clawhub
Stars
36
价值评分
8/10
子分类
文档解析与结构化提取
复杂度
complex
可商业化
✅ 是

AI 标签

文档解析OCR识别PDF转Markdown表格提取版式还原