paddleocr-doc-parsing

Name: paddleocr-doc-parsing
Rating: 8 (36 reviews)
Author: bobholamovic

Skill

by bobholamovic

clawhub⭐ 368/10

使用此技能从PDF和文档图像中提取结构化Markdown/JSON，包括精确到单元格的表格、LaTeX公式、图形、印章和图表等。

基于PaddleOCR将复杂PDF和文档图片智能解析为Markdown与JSON，保留表格、公式及原始版式结构，适配中文场景。

📊 商业分析

商业模式

freemium

独特价值

复杂PDF智能转Markdown/JSON保留原始结构，中文表格公式支持强

竞品

Adobe Acrobat PDF提取(商业闭源价格高)、Mathpix(侧重公式识别英文优先)、Marker(开源但中文复杂版式支持弱)

🎯 应用场景

使用场景

PDF文档内容提取图片文档结构化合同、报告、发票等复杂文档解析

适用领域

自然语言处理计算机视觉文档分析

目标用户

企业知识库建设团队RAG/LLM数据预处理开发者金融法律文档数字化从业者

📦 安装方式

openclaw install bobholamovic-paddleocr-doc-parsing

🔗 安装/下载链接 →

工具信息

类型: Skill
平台: clawhub
Stars: ⭐ 36
价值评分: 8/10
子分类: 文档解析与结构化提取
复杂度: complex
可商业化: ✅ 是

AI 标签

文档解析OCR识别PDF转Markdown表格提取版式还原

相关工具推荐

xiaohongshutoolsSKILL

XiaoHongShu (Little Red Book) data collection and interaction toolkit. Use when working with XiaoHongShu (小红书) platform for: (1) Searching and scraping notes/posts, (2) Getting user profiles and details, (3) Extracting comments and likes, (4) Following users and liking posts, (5) Fetching home feed and trending content. Automatically handles all encryption parameters (cookies, headers) including a1, webId, x-s, x-s-common, x-t, sec_poison_id, websectiga, gid, x-b3-traceid, x-xray-traceid. Supports guest mode and authenticated sessions via web_session cookie.

9/10⭐ 11

data-storytellingSKILL

将原始数据转化为结构化叙事，融合可视化建议、上下文解读与说服性框架，专为高管汇报和商业决策场景设计

8/10⭐ 30,590

risk-metrics-calculationSKILL

自动计算投资组合VaR、CVaR、夏普比率、索提诺比率及最大回撤，支持风险限额设定与实时风险监控系统构建

8/10⭐ 30,590

senior-data-engineerSKILL

面向数据工程师的AI助手，覆盖ETL/ELT、Spark、Airflow、dbt、Kafka等现代数据栈，支持管道设计、数据建模与质量治理全流程

8/10⭐ 2,218

excel-xlsxMCP

AI驱动创建、检查和编辑Excel工作簿，支持公式计算、日期类型、格式保留与模板复用，无损操作XLSX文件

8/10⭐ 107