专家混合模型MoE
专家混合模型MoE——Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 大得离谱的神经网络:稀疏门控混合专家层研究背景与动机-Why Dense-LLM 传统密集模型:传统的LLM主要通过扩大训练数据量和增加模型大小规模来提高预测准确率 无论遇到什么问题(比如修水管还是写法律文件),整个团队的每个专家都必须到场,发表一点意见,这非常低效 同时,随着模型规模和训练数据量的增加,会导致训练成本爆炸式增长 研究方法与创新-How条件计算 条件计算:一种计算范式,核心思想是:神经网络并非对每个输入都激活和使用全部的参数进行运算(即调用整个模型),而是根据输入的具体内容(即条件),动态地、稀疏地选择网络中的一部分路径或参数进行计算 有一个聪明的“项目经理”(门控网络)。他先看一下问题是什么(输入),然后只呼叫最相关的几个专家(比如水管工和电工)来解决问题。其他专家(比如律师和医生)就可以休息,不参与当前的计算。 ...
自回归模型与扩散模型——为什么LLM选择自回归模型而CV采用扩散模型
自回归模型与扩散模型——为什么LLM选择自回归模型而CV采用扩散模型文字与图像的本质区别 文字 文字由明确但是优先的符号构成,属于离散信号 例如“猫”和“狗”是明确的符号,不能平滑过渡,并没有中间状态,不能定义一个既是猫,又是狗的中间状态。 图像 图像的变化是平滑且无限的,属于连续信号 例如“红色”和“黄色”之间可以平滑过渡出无数不同颜色,这些中间状态都是连续存在的,而不是有限的离散符号 自回归模型 人类在说话时,是逐字逐句、循序渐进的过程,后面要说的字是根据前面说过话的内容而定的 例如“天气”后面一般会跟[晴朗、阴转多云],而不是“天气好吃”等 自回归模型的工作原理:根据前面已经生成的离散符号,来逐步预测下一个符号的概率。在每一步预测中,模型会从一个明确而有限的符号集合中,判断下一个符号的可能性大小。 本质:从文字数据库中选择概率最大的分类任务 扩散模型 扩散模型本质上找的是一种概率分布,找的是从模糊草图到细节逐渐变清晰的一个过程 例如我们在画城堡时,一般会想象到城堡的厚城墙、尖屋顶的特征,也就是说这种特征出现的概率是较高的 ...
端到端的智能问答系统
一个完整的端到端智能问答系统应该包含哪些环节? 一个完整的基于 LLM 的端到端问答系统,应该包括用户输入检验、问题分流、模型响应、回答质量评估、Prompt 迭代、回归测试,随着规模增大,围绕 Prompt 的版本管理、自动化测试和安全防护也是重要的话题,部分代码参考自吴恩达老师《Building Systems with the ChatGPT API》课程。 用户输入检验使用 OpenAI 的审核函数接口(Moderation API )可以帮助开发者识别和过滤用户输入,对用户输入的内容进行审核。 性(Sexual):包括引起性兴奋的内容,例如性活动的描写,或者推广性服务,但不包括性教育和健康方面的内容。 仇恨(Hate):包括表达、煽动或宣扬基于种族、性别、民族、宗教、国籍、性取向、残疾状况或种姓的仇恨情感的内容。 自残(Self-harm):包括宣扬、鼓励或描绘自残行为(例如自杀、割伤和饮食失调)的内容。 暴力(Violence):包括宣扬或美化暴力行为,或者歌颂他人遭受苦难或羞辱的内容。 import openai import pandas as...
LLM安全专题
LLM 安全专题提示词 是指在训练或与大型语言模型(Claude,ChatGPT等)进行交互时,提供给模型的输入文本。通过给定特定的 提示词,可以引导模型生成特定主题或类型的文本。在自然语言处理(NLP)任务中,提示词充当了问题或输入的角色,而模型的输出是对这个问题的回答或完成的任务。 关于怎样设计好的 Prompt,查看Prompt专题章节内容就可以了,我不在这里过多阐述,个人比较感兴趣针对 Prompt的攻击,随着大语言模型的广泛应用,安全必定是一个非常值得关注的领域。 提示攻击提示攻击是一种利用 LLM...
OpenAI 文档解读
OpenAI 文档解读OpenAI 文档涉及内容众多,而且这里已经有了中文翻译,需要详细了解的可以自行前往阅读。我这里会重点选取高频使用的 API 进行说明以及对GPT最佳实践主题进行解读。 这篇文章中个人结合自己的实践经验把 OpenAI 官方文档解读一遍。但是原文档涉及内容众多,包括微调,嵌入(Embeddings)等众多主题,我这里重点挑选自己开发高频使用到的,需要详细了解的可以自行前往官网阅读。 API介绍 所有 API 演示均使用 Python 代码作为示例,所以确保已经安装官方 Python 包:pip install openai,同时配置 API 密钥的环境变量 OPENAI_API_KEY。 认证:OpenAI API 使用 API 密钥进行身份验证, API密钥页面可以获取使用的 API 密钥。除了密钥,对于属于多个组织的用户,可以传递一个Requesting organization字段(可以在组织设置页面上找到组织ID)来指定用于 API请求的组织,这些API请求的使用将计入指定组织的订阅配额。 import os import openai #...
LLMOops
LLMOps 介绍LLMOps 是什么?我认为是 MLOps 的一个子类别,LLMOps 关注的是调整现有基础大型语言模型所需的运营能力和基础设施,并将这些优化后的大模型部署为产品的一部分。 下面这篇文章译自微软技术社区 An Introduction to LLMOps: Operationalizing and Managing Large Language Models using Azure ML,虽说微软肯定是顺便推广自己家机器学习托管服务的,但是文章质量肯定没问题,对一些概念的澄清也是专业的,故将原文翻译如下。广义上的 LLMOps 包括大模型训练、推理和部署工具。 介绍近几个月来,随着 GPT-4 等大规模语言模型的出现,自然语言处理 (NLP) 领域发生了范式转变。这些模型由于能够捕捉和理解人类语言的复杂性,在各种 NLP 任务中取得了卓越的性能。然而,为了充分释放这些预训练模型的潜力,必须简化这些模型在实际应用中的部署和管理。 在这篇文章将探讨大型语言模型的操作过程,包括提示工程和调整、微调和部署,以及与这种新范式相关的好处和挑战。 LLM...
五元组流的流级别特征提取、报文级时间序列特征提取
五元组流的流级别特征提取自动化安装Zeek脚本 Zeek安装步骤较多,因此我整理了所有步骤后,编写了自动化安装脚本,直接运行即可 sudo ./zeek_one_install.sh #!/bin/sh # Time: 08/02/2024 # Author: h3110w0r1d sheng_yakun@163.com repo=https://github.com/zeek/zeek.git dependency=(wget flex bison swig libpcap-devel openssl-devel zlib-devel python-devel gerpftools kernel-headers) reliance_list=(https://cmake.org/files/v3.6/cmake-3.6.2.tar.gz ) zeekgit=$(basename ${repo}) zeekdir=${zeekgit%%.git*} # install dependencies sudo...
Suricata通过共享内存获取流量+pwn-浏览器内核V8
Suricata通过共享内存获取流量IntroductionSuricata是一个高性能的网络入侵检测和防御系统(IDS/IPS)。它是由OISF开发,完全开源,并且可以免费使用。https://github.com/OISF/suricata Suricata由线程和队列组成,数据包在线程间传递通过队列实现。线程由多个线程模块组成,每个线程模块实现一种功能。 Suricata有多种运行模式,这些模式与抓包驱动和IDS/IPS选择相关联。抓包驱动如:pcap, pcap file, nfqueue, ipfw, dpdk或者一个特有的抓包驱动等。Suricata在启动时只能选择某个运行模式。如-i选项表示pcap,-r表示pcapfile,-q表示nfqueue等。每一种运行模式都会初始化一些threads, queues等。模式的具体任务是由线程模块来完成。根据线程和线程模块的组织方式的不同,我们可以./suricata –list-runmodes查看运行模式,运行模式又细分为”autofp”, “single”,“wokers”。 Suricata...
云原生实战-Docker+K8s
云平台核心公有云 公有云资源(服务器、存储空间)由第三方云服务商运营 通过Internet提供 在公有云中,与其它组织或云“用户” 共享相同的硬件、存储和网络设备 优势:近乎无限性的缩放性,提供按需资源,可满足业务需求 私有云 私有云由专供一个企业或组织使用的云计算资源构成 服务和基础结构始终在私有网络上进行维护 私有云使用对象:政府机构、金融机构、具备业务关键性运营且希望对环境拥有更大控制权的大型组织 更高的隐私级别 基础概念 云服务器作为应用的最终载体 VPC为所有的云服务器提供网络隔离:在物理层做网络隔离 安全组控制每个服务器的防火规则 公网IP使得资源可访问 端口转发的方式访问到具体服务器 什么是VPC VPC: virtual private cloud,虚拟私有云,用户在公共云上申请的隔离的、私密的虚拟网络环境 用户可以自由配置VPC内的IP地址段、子网、安全组等子服务,也可以申请弹性带宽和弹性IP搭建业务服务 ...