现在市面上的大模型如kimi、chatgpt这些,他们是如何实现在线同时回答多个用户的问题的,也就是底层是如何实现并行的。假如我只有一张GPU,我如何设计来实现在不开启多个实例的前提下同时回答多个问题?
相似问题