Skip to content

使用批量处理embeddings来加速本地推理效率 #560

@TriDefender

Description

@TriDefender

Problem / Motivation

目前各处有关于embeddin的都是顺序调用,也就是每次只发1个请求。这对于推理来说产生了很高的overhead(对我来说,一个28的batch能有90tps,但是如果一次只发一个就只有6-7tps)主要的瓶颈就是没法并发来增加效率。

Proposed Solution

如果不是代码逻辑上强制要求串行向量化,可以考虑在支持batching的断点上攒一个batch再去call向量化

Alternatives Considered

No response

Area

Embedding

Additional Context

No response

Metadata

Metadata

Assignees

Labels

enhancementNew feature or request

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions