Home

DeepSeek学习笔记

春节假期想干点儿轻松的,翻译+记笔记使我快乐。 (公式多渲染慢) 一些HighLight deepseek一系列工作的创新点概括为:1)DeepSeekMoE;2)MLA(于V2提出);3)FP8精度训练(于V3大规模验证);4)MTP(于V3提出);5)用R1数据作为强化学习的reasoning data,蒸馏了R1的推理能力(V3和R1均有论述);6)抛弃SFT只用纯RL做post-train(R1提出);7)GRPO(于Math提出)。前四个创新点都是为了省钱,提高了训练和inference的经济性,共同促成了deepseek如此惊艳的训练和inference效率,火出了圈。后三个惊艳在其开放性上,是第一个达到了与o1相当的reasoning能力并完全开放技术...

Read more

Agent学习笔记

什么是Agent workflow 我们当前使用LLM的方式是Non-agentic workflow (zero-shot) 的,就是问LLM一个问题,让它从头到尾一次性把内容写完。 比如: Please type out an essay on topic X from start to finish in one go, without using backspace. 而Agent的工作方式是不断循环迭代的,就像一个人的工作流程一样。 Agentic workflow也许长这样: Write an essay outline on topic X Do you need any web research? Write a first draft. Consid...

Read more

Transformer代码实现详解

休假在家训模型玩儿,顺便把实践过程整理成文档。 本文训练了一个英德互译的模型,模型架构忠实复现Transformer论文(Attention Is All You Need ),代码来自 https://github.com/harvardnlp/annotated-transformer。 文章用三万组英-德语料训练了一个翻译模型,并基于具体案例拆解了token化、encoder、decoder的完整流程。 看完文章将了解: 1.一句德文输入,在各个中间环节的具体内容,及含义 2.在这个完整例子中,Transformer到底有多少个参数 1.数据准备 1.1.训练语料 使用的语料是torchtext.datasets.Multi30k,这是一个有三万多组【德语-英语】语料...

Read more

GraphCast/GenCast学习笔记

预测相关论文看了不少,但这两篇总能时不时想起来,休假在家想写点啥,就把阅读论文和源码的相关笔记整理了下。 一些HighLight DeepMind总是能发现一些问题领域,适合用机器学习方法重新解一遍题,蛋白质预测、可控核聚变、天气预报,都是。这些场景具备如下特质:1)有充分的历史数据,可以用于模型training;2)问题本身是有规律的,只是这个规律或用数学公式计算困难,或还没有被充分发现(自然科学领域大多具备这一特征);3)当前还没有做的足够好(这个判断并不容易) GraphCast的图结构设计很有意思,点和边是两套东西。点是0.25°经纬度的正方形共721×1440=1,038,240个。但点之间的连接关系并不是按相邻关系定义的,而是构建了m...

Read more

运筹学学习笔记

学运筹时候的笔记,都是一些基础知识,主要扫描存起来备忘,以及显摆一下我字真好看。

Read more

LLAMA代码学习笔记

https://github.com/facebookresearch/llama.git 先大体看看工程结构,每个文件都是啥; 然后整体串下流程,看看chat的数据结构定义,inference整体流程 最后用例子重点看看token化细节、模型框架定义细节、模型加载细节、forward细节 并行执行框架留到下次(找几张卡演示,或找个apple版本的);训练和fine-tuning文件也留到下次 运行环境 代码默认跑在gpu上,在mac上跑要把所有用cuda的地方都改掉 模型文件 开源有6个可选 MODEL_SIZE=”7B,13B,70B,7B-chat,13B-chat,70B-chat” 以llama-2-7b-chat为例,里面三个文件: 1)checklist.chk ...

Read more

SAM 论文翻译+笔记

SAM 论文翻译+学习笔记 模型部分附上了代码细节,SAM模型架构在文末。 论文地址:https://arxiv.org/pdf/2304.02643.pdf Abstract We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. SA项目:一个图片分割场景的新任务、新模型、新数据集。 Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over ...

Read more

6个NF范式介绍

内容整理自课程 哈尔滨工业大学-数据库系统(上+中+下) https://www.bilibili.com/video/BV1PJ411F78b?p=159 1NF First Normal Form (1 INF) 要求每个字段都是原子不可分的。 假如学校要建立一个所有学生信息的数据库,有一个字段是学生的家庭住址。 字段如下: 中国湖南省邵阳市隆回县顺子镇王炸村1号。 这个字段可以切割成4个字段: 国籍,省份,市,具体地址

Read more