Aphrodite Engine:大规模LLM推理引擎,为高效部署和运行大型语言模型提供强大支持。 支持多种量化格式,如fp2-fp12,显著降低内存占用;8位KV缓存,大幅提升上下文长度和吞吐量;支持多种硬件平台,包括CUDA、TPU、Inferentia等