Home

春节假期想干点儿轻松的，翻译+记笔记使我快乐。（公式多渲染慢）一些HighLight deepseek一系列工作的创新点概括为：1）DeepSeekMoE；2）MLA（于V2提出）；3）FP8精度训练（于V3大规模验证）；4）MTP（于V3提出）；5）用R1数据作为强化学习的reasoning data，蒸馏了R1的推理能力（V3和R1均有论述）；6）抛弃SFT只用纯RL做post-train（R1提出）；7）GRPO（于Math提出）。前四个创新点都是为了省钱，提高了训练和inference的经济性，共同促成了deepseek如此惊艳的训练和inference效率，火出了圈。后三个惊艳在其开放性上，是第一个达到了与o1相当的reasoning能力并完全开放技术...

什么是Agent workflow 我们当前使用LLM的方式是Non-agentic workflow (zero-shot) 的，就是问LLM一个问题，让它从头到尾一次性把内容写完。比如： Please type out an essay on topic X from start to finish in one go, without using backspace. 而Agent的工作方式是不断循环迭代的，就像一个人的工作流程一样。 Agentic workflow也许长这样: Write an essay outline on topic X Do you need any web research? Write a first draft. Consid...

休假在家训模型玩儿，顺便把实践过程整理成文档。本文训练了一个英德互译的模型，模型架构忠实复现Transformer论文（Attention Is All You Need ）,代码来自 https://github.com/harvardnlp/annotated-transformer。文章用三万组英-德语料训练了一个翻译模型，并基于具体案例拆解了token化、encoder、decoder的完整流程。看完文章将了解： 1.一句德文输入，在各个中间环节的具体内容，及含义 2.在这个完整例子中，Transformer到底有多少个参数 1.数据准备 1.1.训练语料使用的语料是torchtext.datasets.Multi30k，这是一个有三万多组【德语-英语】语料...

预测相关论文看了不少，但这两篇总能时不时想起来，休假在家想写点啥，就把阅读论文和源码的相关笔记整理了下。一些HighLight DeepMind总是能发现一些问题领域，适合用机器学习方法重新解一遍题，蛋白质预测、可控核聚变、天气预报，都是。这些场景具备如下特质：1）有充分的历史数据，可以用于模型training；2）问题本身是有规律的，只是这个规律或用数学公式计算困难，或还没有被充分发现（自然科学领域大多具备这一特征）；3）当前还没有做的足够好（这个判断并不容易） GraphCast的图结构设计很有意思，点和边是两套东西。点是0.25°经纬度的正方形共721×1440=1,038,240个。但点之间的连接关系并不是按相邻关系定义的，而是构建了m...

学运筹时候的笔记，都是一些基础知识，主要扫描存起来备忘，以及显摆一下我字真好看。

https://github.com/facebookresearch/llama.git 先大体看看工程结构，每个文件都是啥；然后整体串下流程，看看chat的数据结构定义，inference整体流程最后用例子重点看看token化细节、模型框架定义细节、模型加载细节、forward细节并行执行框架留到下次（找几张卡演示，或找个apple版本的）；训练和fine-tuning文件也留到下次运行环境代码默认跑在gpu上，在mac上跑要把所有用cuda的地方都改掉模型文件开源有6个可选 MODEL_SIZE=”7B,13B,70B,7B-chat,13B-chat,70B-chat” 以llama-2-7b-chat为例，里面三个文件： 1）checklist.chk ...

SAM 论文翻译+学习笔记模型部分附上了代码细节，SAM模型架构在文末。论文地址：https://arxiv.org/pdf/2304.02643.pdf Abstract We introduce the Segment Anything (SA) project: a new task, model, and dataset for image segmentation. SA项目：一个图片分割场景的新任务、新模型、新数据集。 Using our efficient model in a data collection loop, we built the largest segmentation dataset to date (by far), with over ...

内容整理自课程哈尔滨工业大学-数据库系统（上+中+下） https://www.bilibili.com/video/BV1PJ411F78b?p=159 1NF First Normal Form (1 INF) 要求每个字段都是原子不可分的。假如学校要建立一个所有学生信息的数据库，有一个字段是学生的家庭住址。字段如下：中国湖南省邵阳市隆回县顺子镇王炸村1号。这个字段可以切割成4个字段：国籍，省份，市，具体地址

DeepSeek学习笔记

Agent学习笔记

Transformer代码实现详解

GraphCast/GenCast学习笔记

运筹学学习笔记

LLAMA代码学习笔记

SAM 论文翻译+笔记

6个NF范式介绍