DeepSeek学习笔记
春节假期想干点儿轻松的,翻译+记笔记使我快乐。
(公式多渲染慢)
一些HighLight
deepseek一系列工作的创新点概括为:1)DeepSeekMoE;2)MLA(于V2提出);3)FP8精度训练(于V3大规模验证);4)MTP(于V3提出);5)用R1数据作为强化学习的reasoning data,蒸馏了R1的推理能力(V3和R1均有论述);6)抛弃SFT只用纯RL做post-train(R1提出);7)GRPO(于Math提出)。前四个创新点都是为了省钱,提高了训练和inference的经济性,共同促成了deepseek如此惊艳的训练和inference效率,火出了圈。后三个惊艳在其开放性上,是第一个达到了与o1相当的reasoning能力并完全开放技术...
Agent学习笔记
什么是Agent
workflow
我们当前使用LLM的方式是Non-agentic workflow (zero-shot) 的,就是问LLM一个问题,让它从头到尾一次性把内容写完。
比如:
Please type out an essay on topic X from start to finish in one go, without using backspace.
而Agent的工作方式是不断循环迭代的,就像一个人的工作流程一样。
Agentic workflow也许长这样:
Write an essay outline on topic X
Do you need any web research?
Write a first draft.
Consid...
Transformer代码实现详解
休假在家训模型玩儿,顺便把实践过程整理成文档。
本文训练了一个英德互译的模型,模型架构忠实复现Transformer论文(Attention Is All You Need
),代码来自 https://github.com/harvardnlp/annotated-transformer。
文章用三万组英-德语料训练了一个翻译模型,并基于具体案例拆解了token化、encoder、decoder的完整流程。
看完文章将了解:
1.一句德文输入,在各个中间环节的具体内容,及含义
2.在这个完整例子中,Transformer到底有多少个参数
1.数据准备
1.1.训练语料
使用的语料是torchtext.datasets.Multi30k,这是一个有三万多组【德语-英语】语料...
GraphCast/GenCast学习笔记
预测相关论文看了不少,但这两篇总能时不时想起来,休假在家想写点啥,就把阅读论文和源码的相关笔记整理了下。
一些HighLight
DeepMind总是能发现一些问题领域,适合用机器学习方法重新解一遍题,蛋白质预测、可控核聚变、天气预报,都是。这些场景具备如下特质:1)有充分的历史数据,可以用于模型training;2)问题本身是有规律的,只是这个规律或用数学公式计算困难,或还没有被充分发现(自然科学领域大多具备这一特征);3)当前还没有做的足够好(这个判断并不容易)
GraphCast的图结构设计很有意思,点和边是两套东西。点是0.25°经纬度的正方形共721×1440=1,038,240个。但点之间的连接关系并不是按相邻关系定义的,而是构建了m...
LLAMA代码学习笔记
https://github.com/facebookresearch/llama.git
先大体看看工程结构,每个文件都是啥;
然后整体串下流程,看看chat的数据结构定义,inference整体流程
最后用例子重点看看token化细节、模型框架定义细节、模型加载细节、forward细节
并行执行框架留到下次(找几张卡演示,或找个apple版本的);训练和fine-tuning文件也留到下次
运行环境
代码默认跑在gpu上,在mac上跑要把所有用cuda的地方都改掉
模型文件
开源有6个可选 MODEL_SIZE=”7B,13B,70B,7B-chat,13B-chat,70B-chat”
以llama-2-7b-chat为例,里面三个文件:
1)checklist.chk
...
SAM 论文翻译+笔记
SAM 论文翻译+学习笔记
模型部分附上了代码细节,SAM模型架构在文末。
论文地址:https://arxiv.org/pdf/2304.02643.pdf
Abstract
We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation.
SA项目:一个图片分割场景的新任务、新模型、新数据集。
Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over ...
18 post articles, 3 pages.