oimi分享美好数字生活 oimi分享美好数字生活
  • 首页
  • AI
  • Lab
  • Apple
  • 生活方式
  • 硬件
首页 › AI › DeepSeek开源周首日推出FlashMLA项目 可以显著降低内存占用和计算开销
  • 0
  • 0

DeepSeek开源周首日推出FlashMLA项目 可以显著降低内存占用和计算开销

OIMI
24 2 月, 2025
1,130 views

开源人工智能技术开发商 DeepSeek 上周已经预告将在本周陆续推出 5 个已经在生产环境中使用的技术,目前首个项目 FlashMLA 已经在 GitHub 上公布。

FlashMLA 是一种针对 NVIDIA Grace Hopper 架构 GPU 设计的高效多层注意力 (Multi-Layer Attention,MLA) 解码内核,该技术不仅可以优化变长序列的处理性能,还可以将低内存占用和计算开销。

技术的关键特点包括:

BF16 支持:FlashMLA 采用 BF16 精度格式,兼顾 FP32 的动态范围和 FP16 的计算效率,这种设计可以显著降低内存占用和计算开销,特别适合深度学习模型的推理阶段。

分页 KV 缓存技术:Paged KV Cache 通过块大小为 64 的分页键缓存系统,FlashMLA 优化了 Transformer 模型中键值对的存储和访问,减少内存碎片和延迟等,这项技术主要是和处理变长序列,确保在不同输入长度下都能保持高效性能。

卓越性能:在 NVIDIA H800 GPU 上,FlashMLA 实现了 3000GB / 秒的内存带宽利用率 (内存限制场景) 和 580TFLOPS 的计算能力 (计算限制场景),数据表明 FlashMLA 可以充分利用 Hopper 架构的 HBM 高带宽内存和并行计算能力。

FlashMLA 优化变长序列带来的优势:

变长序列是自然语言处理、语音识别、时间序列分析等领域面临的常见技术挑战,传统模型在处理不固定长度的输入时往往效率会比较低,FlashMLA 通过针对性优化可以提高大型模型在变长序列场景下的推理速度,因此适合用于需要实时响应和高吞吐量的应用。

也就是说借助这项优势未来其他模型也可以优化响应速度,尤其是实时语音模式这种对响应速度有要求的场景,AI 可以更快的回答而不是让用户长时间等待。

目前 FlashMLA 已经在 GitHub 上完全开源,开发者只需要使用简单的 Python 命令即可快速部署,DeepSeek 也提供了测试脚本用来验证性能:https://github.com/deepseek-ai/FlashMLA

该项目的开源特性还借鉴了 FlashAttention 2&3 以及 CUTLASS 项目的模块化设计,有兴趣的开发者也可以研究上游项目的具体细节。

0

DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

上一篇

OOMOL Studio 免费、底层开源

下一篇

评论 (0)

再想想
暂无评论

聚合文章

Hermes Agent Windows 原生支持正式发布
Hermes 凭什么爆:不是技术,是时机
Hermes 原生桌面版
OpenClaw 到底能干嘛?
OpenFang 
Goose
GitHub Trending- Shannon
nanobot超轻量级个人AI助手
beautiful-mermaid
BettaFish

猜你喜欢

Claude:ChatGPT的替代方案

Claude:ChatGPT的替代方案

2 5 月, 2023
3,625 0 0
OpenClaw 到底能干嘛?

OpenClaw 到底能干嘛?

5 3 月, 2026
257 0 0
nanobot超轻量级个人AI助手

nanobot超轻量级个人AI助手

5 2 月, 2026
655 0 0
Vectorizer.AI

Vectorizer.AI

24 4 月, 2023
3,429 0 0

关于

OIMI(oimi.me)是分享美好数字生活的内容平台,同时还涉及 macOS、iOS 等知名系统的使用技巧。 科技 / 旅行 / 摄影 / 生活方式

社交媒体

Nicky

导航

Nicky
Copyright © 2016-2026 oimi分享美好数字生活. Designed by OIMI.
  • ChatTTS,HyperOS,HEU KMS Activator,Win10/11数字权利激活

OIMI

272
文章
1
评论
138
喜欢