一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。 特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景。 Extractous | #工具 —————————————————————————— #广告→ 渗透接单中心:@shanding007