Tokasaurus:为高吞吐量任务设计的LLM推理引擎,让模型运行更高效。支持多种并行化技术,优化内存和计算资源,提升模型推理速度。 支持数据、管道和张量并行化,无缝扩展到多GPU;采用Hydragen技术,自动检测共享前缀,显著提升计算效率;低CPU开销,适合小模型和高性能GPU部署