OCRmyPDF 精准识别扫描件中的文字,为图像 PDF 嵌入可检索的文本层 命令行工具,可以处理多种语言,并提供诸如页面旋转、图像去斜等功能。使用 Tesseract 引擎,支持超过 100 种语言,同时保持原始图片的分辨率不变。该工具能在不干扰其他内容的情况下无损插入 OCR 信息,并优化 PDF 文件大小,使其比原文件更小。 【链接在评论区】 #开源 #PDF@txwl666