8月11号Mask传随笔在去英国的飞机上,10个小时的飞行多少有点麻木了,闲来无事,便翻开没看完的马斯克传,又经过一年的成长,再看时觉得有些东西还是值得记录,于是便有了这篇随笔摘录,没有任何逻辑,看见有些感触的文段,便摘录下来而已!
偏执的人会改变世界!
如果你正在经历黑暗那就走下去!
“干活的第一步就应该是质疑你接到的任务要求。”马斯克说,“因 为所有要求或多或少都包含着愚蠢和错误的成分,所以一定要砍掉它 们、砍掉它们、砍掉它们。”
“如果常规思维无法完成一项任务, 那么就有必要使用非常规的思维手段。”
1.质疑每项要求。提出任何一项要求时,都应该附上提出这一要求 的人。永远...
7月27日思考最近在看一些访谈,听到一个挺有趣的观点:一个人真正能吸收的经验只会来源于三点
曾经失败过感受到痛苦的教训
曾经喜悦过有很大正向收获的经验
曾经可以练习,变成了脑袋里常识的肌肉记忆
访谈的意义在于,窥探某种视角的认知,让想要开始的人不至于不知道如何开始,让他看到了一些事情的可能性,让他想要做某些事情的时候,不至于乌漆嘛黑的往前走,曾经听到过,曾经看到过,当有一天,他绊倒摔了一跤的时候,他可能记得那件事,他可能起来的更快一些,总结经验和教训的时候,可以更顺一些
Vision-Agent学习笔记这里先附上VisionAgent可以完成的功能vision_agent实现的功能其实是 vision_agent.tools 决定的,所以我们check一下工具列表即可:
blip_image_caption:基于图像内容生成描述性文本。
clip:对图像进行分类或标签,并返回概率评分。
closest_box_distance:计算两个边界框之间的最近距离。
closest_mask_distance:计算两个掩码之间的最近距离。
extract_frames:从视频中提取帧,返回帧和时间戳的列表。
git_vqa_v2:根据问题和图像回答有关图像内容...
全参数模型加载调用模型代码-qwen_1.5-7B为例123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112from transformers import AutoModelForCausa...
做ROI大于1的事情
刚刚从彩云科技出来,跟袁总聊完,感觉确实有被狠狠的上了一课。做软件的一群人,应尽快做出MVP(精益可用模型),快速发布上线,让市场和用户给予及时的反馈,通过反馈来修正MVP的发展方向,这个世界上没有完全准备好的事情,过去我们总是纠结于我们内部做出了一个很棒的产品,但是殊不知一直是一群工程师的闭门狂欢。一直纠结于伟大的产品需要盛大的发布,但也许,奋力一击后,石沉大海才是常态!技术门槛是长远发展的根本,但是伟大的技术不一定很快能被商业化,但是能被快速商业化一定是伟大的创意。越往上走,技术门槛就是会变得越来越低,找到核心用户群体,并快速进化迭代满足用户核心需求是关键!
...
Group-query-attention(分组查询注意力机制)
在论文中,group-query-attention(组查询注意力)是一种用于优化查询处理的技术。它旨在通过将多个查询分组并同时处理,以减少计算资源的消耗和提升查询效率。以下是group-query-attention在论文中的详细讲解:
Group-Query-Attention 技术概述
group-query-attention 主要解决在执行注意力机制时,计算量和内存需求过高的问题。通过将查询向量进行分组,并在分组的基础上进行计算,可以显著减少计算复杂度和内存占用。
技术实现1. 查询分组
将输入的查询向量(q...
RNN(循环神经网络)
循环神经网络(RNN)的工作原理可以概括为:
RNN由具有循环连接的神经元组成,神经元的输出会被反馈到自身的输入中,形成一个隐藏状态,可视为网络的”记忆”。[1][2]
在时间步t,RNN接收当前输入x(t)和上一时间步的隐藏状态h(t-1),计算当前隐藏状态h(t)。公式为:h(t) = f(W_hh * h(t-1) + W_xh * x(t))[1][2][5]其中f为非线性激活函数,W_hh和W_xh为权重矩阵。
隐藏状态h(t)包含了当前输入x(t)和过去信息h(t-1)的综合,可以看作是网络对整个输入序列的编码。[1][2][5]
然后将h(...
KV Cache这里主要剖析一下vllm的KV机制
vLLM技术原理:使用page Attension技术使用Block来管理内存空间,vllm框架内部维护了一个映射表,使得token输出的占用显存看起来逻辑连续
使用Block来维护内存空间,解决了KV cache预分配的问题,导致显存浪费
1.按需分配,不是预分配
2.按block分配,减少碎片大小
3.虚拟内存,方便实现调用
优化后:
Sharing Block
主要是比较适用共享Prompt的场景,比如,同一个Prompt输入,要求模型输出n(n>1)个不同输出
self-attention
大模型开发,微调学习笔记这篇blog简单记录,我在学习大模型开发过程中使用过的一些资料
理论篇
LLM原理篇(transformer,Tokenizer, PEFT)
这里推荐一个github上的rope,可以结合paper看
GitHub - kebijuelun/Awesome-LLM-Learning: Learning Large Language Model (LLM)(大语言模型学习)
实践篇
langchain,llamaIndex,autoGen AI开发工具教学
视频入门课程:
DLAI - Learning Platform
这个平台里面也有一...
Yolo V1论文笔记
原文地址:
https://arxiv.org/pdf/1506.02640.pdf
源码地址:
https://github.com/motokimura/yolo_v1_pytorch
一句话总结:
YOLO(You Only Look Once)是一种统一的、实时的对象检测方法,通过将对象检测视为一个回归问题来直接从图像中预测边界框和类别概率,实现了快速且准确的对象检测。
网络层最巧妙的设计:
分类网络最后的全连接层,一般连接于一个一维向量,向量的不同位代表不同类别,而这里的输出向量是一个三维的张量(7乘7乘30)。包含了边界框的,中...