在餐巾纸上推导FlashAttention算法--深度学习算法的优化通常需

蚁工厂 2025-03-07 13:24:15

在餐巾纸上推导FlashAttention 算法 --

深度学习算法的优化通常需要非常耗时的手动推导。像FlashAttention这样的方法虽然显著提升了性能（相比原生PyTorch提高了6倍），但它们的开发过程漫长（经历了三年三次迭代）。

这篇论文：openreview.net/forum?id=pF2ukh7HxA

提出了一种新的图解方法，用于系统化地设计、分析和优化深度学习算法，特别是针对GPU硬件的IO感知优化。这种方法不仅可以用于推导新的算法，还可以用于理解和改进现有算法（如FlashAttention）。

AI创造营

0 阅读：0

感谢大家的关注

作者最新文章

1

github.com/corkami/pics一个图解各类文件格式的库

2

电子书《Exploring JavaScript》ES2024 版explori

3

一些数学/计算机课程收集列表地址：github.com/xioacd99/stu

4

这次上海时装周已经有AI设计的服装了.这类设计也算是AI的强项吧（当然需要专门训

5

llm-action，本项目旨在分享大模型相关技术原理以及实战经验（大模型工程化

6

将github仓库链接里的hub改成diagram，可以生成项目架构图如 git

7

机器学习教程 -- 从零开始的实践之路acgpp.github.io/simpl

8

Model Context Protocol(MCP) 编程极速入门github

9

《动手学大模型》系列编程实践教程github.com/Lordog/dive-i

10

速通AI编程开发：基于Roo Code+DeepSeek的编程教程github.

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

3

小米又搞大动作啦！6月24日雷军透露小米YU7支持车外小爱语音。车外配备8个麦克

4

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

5

朝鲜的单摄奥利奥，虽然只是一个很low的后摄单摄，但是也要凑够两个假的组成奥利奥

6

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

7

雷军估计不会再直播了！他怎么也想不到，网友居然在他直播间里干起来了！甚至把雷

8

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

9

不得不说，这老头也太幸福了吧！国外的科技都这么先进了吗？这两位美女机器人做的

10

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

科技最新文章

1

重大消息，荣耀Magic7系列迎来了又一次重磅系统更新这次的182版本主要加入

2

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

3

荣耀X70在千元机档位有三大特性是领先的，确实超出我个人预期：1.设计耐看；2.

4

吊打苹果，吊打三星，华为也要加油了！你以为8300毫安荣耀X70是电池终点？

5

说实话，荣耀X70手机，8300的电池挺吸引人的。不过，骁龙6Gen4芯片让人纠

6

黄仁勋发出对华为的惊天之问。1.现在世界上，哪家手机公司的手机，比华为的手

7

谷歌宣布：8月20日办新品发布会，Pixel10全系列亮相，重点是AI芯

8

朋友最后还是没忍住，入手了最新的荣耀MagicV5大折叠，截图给我看了眼订单，

9

不服什么H100，又H200的，就服黄仁勋的标志性皮夹克！北京室外太阳直射气温

10

库克这个苹果CEO真的做得不行？乔布斯去世的时候，苹果市值3500亿美金，201