一个高性能的非结构化数据提取工具,使用Rust编写并支持多种编程语言。 特色是速度快(比unstructured-io快25倍)、内存占用低、支持本地运行,无需依赖外部服务。支持PDF、Word、HTML等多种文档格式的文本和元数据提取,集成OCR功能,适用于数据处理管道和RAG应用场景。 Extractous | #工具 —————————————————————————— #广告→ 渗透接单中心:@shanding007
awesome-mir-labs:一个全面收录音乐信息检索(MIR)和AI音乐实验室的资源列表。收录了全球各地活跃的MIR研究机构,包括各实验室的所属机构、地区、负责人和研究方向等详细信息。对想要从事音乐AI研究的学者和学生提供了重要的参考价值
knowledge-graph-studio:一个开源的知识图谱构建和管理平台,专为RAG应用设计。支持基于规则的实体解析、模块化图谱构建、灵活的数据接入等功能。基于NoSQL数据库构建,提供API优先的设计理念和SDK支持,可用于构建动态的图谱驱动AI工作流,适用于实验性和大规模应用场景
MLX Omni Server:一款基于苹果MLX框架的本地推理服务器,专为Apple Silicon芯片优化设计。 支持OpenAI兼容的API接口,实现文本对话、语音转换、图像生成等AI能力。 特点是本地化推理保护隐私、硬件加速高性能、支持OpenAI SDK直接调用,可作为OpenAI API的本地替代方案
一款轻量级的浏览器数据库图形界面工具,支持多种主流数据库(包括SQLite、PostgreSQL、MySQL等)。主要特点包括智能查询编辑器、数据编辑器、模式编辑器和连接管理器。具有自动完成、多查询并行执行、高效渲染等功能,提供Windows和Mac桌面版本 Outerbase Studio | #工具
一款轻量级的浏览器数据库图形界面工具,支持多种主流数据库(包括SQLite、PostgreSQL、MySQL等)。主要特点包括智能查询编辑器、数据编辑器、模式编辑器和连接管理器。具有自动完成、多查询并行执行、高效渲染等功能,提供Windows和Mac桌面版本 Outerbase Studio | #工具
awesome-machine-learning-startups:一个全球AI和机器学习创业公司的精选列表,按城市和领域分类整理。涵盖计算机视觉、自然语言处理、机器人、医疗、自动驾驶等多个AI应用领域,包含公司基本信息、LinkedIn链接、融资状态等详细数据
用于在DuckDB中直接通过SQL读写Google Sheets的扩展工具。支持通过URL或spreadsheet ID访问表格,可以读取指定sheet页面,支持无表头读取,还可以直接将数据写入到Google Sheets中。提供浏览器认证和访问令牌两种认证方式 DuckDB GSheets | #工具
用于机器学习模型文件检查、验证、签名和验证的实用工具。支持safetensors、ONNX、GGUF和PyTorch等主流格式,具备模型内容检查、Ed25519签名验证、推理图生成等功能,特别注重安全性,PyTorch模型在隔离的Docker容器中运行以防止代码执行漏洞。 tensor-man | #工具
一个优化增强版的Android同步工具,基于Syncthing开发。主要特点包括直观的同步进度显示、每小时同步选项以节省电量、设备自动发现、支持Android 11外置SD卡双向同步、支持加密文件夹等。 相比原版增加了更多实用功能,并修复了耗电问题,提供了更灵活的同步条件设置。 syncthing-android | #工具
awesome-event-driven-architecture:一个精选的事件驱动架构(EDA)资源集合,包含高质量的文章、视频和实践经验。涵盖EDA的基础知识、最佳实践、案例研究和常见陷阱。内容经过严格筛选,确保每个资源都能为读者提供清晰的原则和术语解释,特别适合想要深入了解事件驱动架构的开发者和架构师
LLMs-in-Finance:一个关于金融领域大语言模型应用的知识库,涵盖生成式AI、智能代理、RAG检索增强等技术在金融领域的实践。包含了各类金融场景下的LLM应用案例、论文资料、数据集以及多模态金融分析等内容,适合研究金融科技与AI结合的开发者参考
一份全面的Solar模型提示工程指南,提供了系统化的教程从基础到高级的提示技巧。包含11个章节,涵盖基本结构、直接清晰提示、少样本学习、角色风格、结构化提示、推理链等关键技术,并附带实际案例和优化方法。特别适合想要掌握LLM提示工程的非专业用户。 Solar Prompt Guide |#指南
DailyPaper:一个专业的AI论文日报项目,由M-A-P团队维护,每日精选并深度点评arXiv上的最新人工智能相关论文,内容涵盖大语言模型、计算机视觉、多模态等前沿领域,提供专业且富有洞察力的技术评述
CodeTree: 基于 Agent 引导的树状搜索方法优化 LLM 代码生成 「来自 Salesforce AI 研究院的论文,提出了 CodeTree 代码生成框架,通过构建树状搜索结构并配合四个专门的 AI Agent (思考者、解决者、调试者、评判者) 协同工作,显著提升了 LLM 在代码生成任务中的表现,尤其在处理复杂编程问题时更具优势」 论文主要创新点在于: 1. 采用树状结构进行代码生成探索: - 树的根节点是问题描述 - 每个子节点代表一个可能的代码解决方案 - 通过广度优先或深度优先搜索来探索不同的解决方案 2. 引入了四个专门的 AI Agent: - Thinker(思考者): 负责生成解决问题的高层策略 - Solver(解决者): 根据策略实现具体代码 - Debugger(调试者): 根据反馈改进代码 - Critic(评判者): 评估代码质量, 引导搜索方向 主要优势: 性能出色: - 在 HumanEval 达到 95.1% 的准确率 - 在 MBPP 达到 98.7% 的准确率 - 在竞赛级别的 CodeContests 达到 43.0% 的准确率 搜索效率高: - 即使在较小的生成预算(少于9个样本)下也能达到不错的性能 - 通过 Critic 代理的引导避免了无效的搜索路径 灵活性强: - 可以动态决定探索的策略数量 - 能够根据问题难度调整搜索深度和广度 —————————————————————————— #广告→ 渗透接单中心:@shanding007
Hands-On Large Language Models:该存储库包含《动手大型语言模型》一书中的完整代码示例。包括笔记本示例,涵盖从语言模型介绍到微调的所有内容。
问卷调研平台:xiaoju-survey 这是一款免费且专业的调研系统,旨在为个人和企业提供一站式产品级的调研解决方案。它前后端均已开源,并支持 Docker 一键部署,内置了多种题型和模版,支持逻辑编排、自定义品牌、权限管理、数据分析和导出等功能,可用于创建问卷、考试、测评和复杂表单。 —————————————————————————— #广告→ 渗透接单中心:@shanding007
LLMs Interview Questions:收录了63个大语言模型(LLM)相关的面试问题及答案,针对2024年机器学习和数据科学面试提供系统化的准备资料。内容涵盖LLMs基本原理、Transformer架构、注意力机制、预训练与微调等核心知识点,附带详细解答和代码示例