MCP-PDF-Extractor-server

MCP Server

by RayenMalouche

mcpmarket.cn07/10

基于Java和Tika的本地文件内容元数据提取服务

A Java-based server leveraging Apache Tika to extract content and metadata from files (PDF, DOCX, TXT, etc.) in a local files-to-extract directory. Supports HTML (with CSS styling) and text extraction, file listing, and metadata retrieval via MCP-compliant tools and REST APIs. Built with Spring Boot, Jetty, and MCP SDK.

📊 商业分析

核心功能
从PDF等文件中提取文本、HTML及元数据
商业模式
SaaS订阅或企业私有化部署授权
独特价值
Java生态原生集成,支持CSS样式保留的HTML输出
竞品
["Apache Tika", "pdfplumber", "PyMuPDF"]

🎯 应用场景

使用场景
批量文档数字化非结构化数据处理RAG知识库构建
适用领域
企业信息化法律科技学术研究
目标用户
后端开发者数据工程师AI应用构建者

工具信息

类型
MCP Server
平台
mcpmarket.cn
Stars
0
价值评分
7/10
子分类
文档解析与提取
复杂度
medium
可商业化
✅ 是

AI 标签

文档解析数据提取RAG增强非结构化数据本地处理