Popular repositories Loading
-
flash-attention-v100
flash-attention-v100 Publicforked from vllm-project/flash-attention
-
marlin_v100
marlin_v100 Publicmarlin_v100 是一个从 vLLM 主树中提取出来的最小 Marlin 独立开发工作区,聚焦于 Marlin dense 与 Marlin MoE 的源码开发、最小构建和轻量验证。它保留了核心 CUDA/C++ 实现、最小 Python 薄封装、生成器测试与主树回写映射,适合在不受主树全量构建干扰的情况下快速重构和验证 Marlin 相关改动。
C++ 8
-
-
fastllm
fastllm PublicForked from ztxz16/fastllm
fastllm是后端无依赖的高性能大模型推理库。同时支持张量并行推理稠密模型和混合模式推理MOE模型,任意10G以上显卡即可推理满血DeepSeek。双路9004/9005服务器+单显卡部署DeepSeek满血满精度原版模型,单并发20tps;INT4量化模型单并发30tps,多并发可达60+。
C++
-
-
1CatV2-ai_bondFA
1CatV2-ai_bondFA PublicForked from haohervchb/GooseLLM
1CatV2 with ai bond FA-v100 vibed in by gpt-5.4
Python
If the problem persists, check the GitHub status page or contact support.
