tra-extract-text

CLI 工具

by goog

clawhub05/10

使用trafilatura CLI从网页提取可读文本、Markdown、HTML、JSON或XML内容,支持元数据和输出格式设置。

基于trafilatura CLI从网页中提取正文,支持Markdown、HTML、JSON、XML等多格式输出,可附带元数据。

📊 商业分析

商业模式
free
独特价值
多格式输出(MD/HTML/JSON/XML)一键提取正文
竞品
Jina Reader(API化更易用)、Readability/Mozilla(浏览器端提取)、BeautifulSoup+自定义脚本(灵活度更高)。本skill仅是trafilatura CLI的薄封装,无差异化优势

🎯 应用场景

目标用户
数据工程师SEO从业者AI训练数据采集人员

📦 安装方式

openclaw install goog-tra-extract-text
🔗 安装/下载链接 →

工具信息

类型
CLI 工具
平台
clawhub
Stars
0
价值评分
5/10
子分类
网页数据提取与清洗
可商业化
❌ 否

AI 标签

网页抓取正文提取数据清洗内容解析trafilatura