摘要: 本文讨论了早期序列建模方法的局限性,如 RNN、LSTM、GRU 和 CNN,并介绍了注意力机制对这些问题的解决方法,其中包括自注意力、查询键值机制、打分函数等。为捕捉全局依赖关系,提出 Transformer 模型摈弃循环机制,采用自注意力和多头注意力。Transformer 使用位置编码处理位置信息,包含编码解码结构,支持并行处理。介绍了如 GPT 和 BERT 这样的预训练模型,用于学习通用语言表示,并通过微调适应特定任务。随着参数规模提升,模型展现出越来越丰富的能力。
动机 早期序列建模方法具有局限性: RNN(循环神经网络)**:RNN 能够处理序列数据,但在处理长序列时存在梯度消失与梯度爆炸问题。 LSTM(长短时记忆)* 与 *GRU(门控循环单元)**:为解决 RNN 的梯度问题,引入了更复杂的结构,如 LSTM 和 GRU,但计算效率相对较低。 CNN(卷积神经网络)**:虽然主要用于图像处理,但也可以应用于序列数据,如文本分类。然而,CNN 的感受野有限,不能直接捕捉全局依赖关系。 为了解决这些问题,注意力机制被引入。 首先明确一点,注意力是稀有资源,我们只有有限的处理能⼒,所以需...
缘起 多层感知器(MLP)和卷积神经网络(CNN)都属于前馈神经网络(Forward Neural Network,FNN),它们将一个数据样本作为输入,并输出一个结果,例如将图像输入并得到类标签。 对于 时间序列(time-series)数据集,如语言、视频和生物信号,这些数据集无法适应前馈神经网络的框架。 循环神经网络(RNN)是一种专为处理时间序列数据设计的深度学习架构。 词的表示 词的表示(Word Representation):将词转换为计算机可以理解的形式的过程。 词的表示方法有以下几种: One-hot 编码 ...
摘要: 本文介绍了几种 GAN(生成对抗网络)的变体,以及它们相对于原始 GAN 的改进。cGAN(条件对抗神经网络)可以控制生成的内容,通过在 GAN 中引入额外的条件信息。BiGAN(双向生成对抗网络)引入了编码器,使得 GAN 在保持生成能力的同时,也能从数据空间映射回潜在空间。CoGAN(协同生成对抗网络)能够学习两个领域的联合分布,并生成两个领域的数据,通过共享权重机制。CycleGAN 则能在没有一一对应关系的两个不同领域间进行图像转换,引入循环一致性损失,以确保在风格迁移过程中图像内容的一致性。这些 GAN 变体都通过不同的机制和应用,展示了 GAN 技术在图像生成和变换领域的广泛适用性。
本节中,将主要介绍一下几种 GAN 的变体,介绍他们相较于 Vanilla GAN 的改进。 条件对抗神经网络(Conditional GAN, cGAN) 条件对抗神经网络是对抗神经网络(GAN)的一种扩展,它通过 引入额外的条件信息,控制生成内容。这种方法能够解决多模态问题,即对于同一个条件,存在多种可能的输出。 最经典的一个生成任务就是,输入希望生成的图像类别标签,然后根据这个标签来生成图像,比如控制生成花、生成鸟、或者别的东西。 损失函数 cGAN 的损失函数如下: 判别器损失 $\mathcal{L}_D$ $$ \begin{align...
摘要: 文章讨论了计算机视觉与计算机图形学的关系,指出计算机视觉涉及判别和生成任务,而计算机图形学通过编解码过程生成图像。文章深入介绍了生成模型,旨在学习数据的概率分布以生成新样本,并对判别式和生成式模型进行了对比。文章引入生成对抗网络(GAN),由生成器和判别器组成,通过对抗过程提高图像生成质量。对于 GAN 训练过程中的不稳定性和模式崩溃问题,提出了使用深度卷积 GAN(DCGAN)技术改进,并对比了对抗性损失(Adversarial Loss)与均方误差(MSE)的差异,强调对抗性损失在图像生成中的优势。最后,文章提到了变分自编码器(VAE)作为另一种生成模型。
计算机视觉与计算机图形学 计算机视觉 (Computer Vision) 判别任务(Discriminative Task):从图像中辨识出物体,如识别一辆车。 生成任务(Generative Task):从标签生成对应的图像,如根据 “车” 的标签生成车辆图像。 计算机图形学 (Computer Graphics) 通过编码(Encoding)和解码(Decoding)过程,实现从描述性数据生成图像。 两者关系: ![CV_and_CG](https://cdn.arthals.ink/bed/2024/04/CV_and_CG-e...
摘要: AI 领域的任务分为判别式任务和生成式任务。判别式任务涉及识别或分类给定数据,如图像分类、检测、识别、分割和语言处理等。生成式任务旨在基于已有数据生成新的数据实例。文章还深入探讨了目标检测,介绍了目标检测的效果评估标准如 IoU 和 AP,以及多种目标检测模型,包括 R-CNN、SPP Net、Fast R-CNN、Faster R-CNN 和 YOLO 系列。此外,讨论了图像分割技术,包括语义分割和实例分割,旨在将图像细分为多个具有特定类别标签的区域。整篇文章通过详细介绍各种 AI 模型和方法,展示了视觉识别技术的发展和应用。
总览 在 AI 领域,任务大致分为两类: 判别式任务 和 生成式任务 。 判别式任务 判别式任务关注于从给定的数据中识别或分类信息。常见的应用包括: 二维(2D)任务 分类(Classification)** :识别给定图像的类别。 检测(Detection)** :识别图像中的对象及其位置。 识别(Recognition)** :比如,人脸识别。 分割(Segmentation)** :将图像分成多个部分或对象。 检索(Retrieval)** :根据特定特征搜索相似图像。 ...
摘要: 该文章主要介绍了卷积神经网络(CNN)的基本概念与机制。首先,强调了因真实图像像素多、尺寸大引起的参数过多和计算量大的问题,提出了平移不变性的概念,并引入了空间权值共享、稀疏连接和等变表示等概念来减少参数数量和计算量。接着详细解释了 2D 卷积的过程,并讨论了填充、卷积核形状和感受野的概念。除此之外,还探讨了 3D 卷积如何在深度方向上进行扩展。文章还介绍了池化操作的目的和各种池化方法。进一步,探讨了通过堆叠多个卷积层和池化层来逐渐提取高级特征的分层表示学习。最后,通过讨论卷积架构的演进,包括 AlexNet、VGG 和 ResNet 等。
动机 对于真实图像,其动辄几万几十万像素,尺寸太大,导致全连接层的维数过高,参数过多,计算量过大,内存不足。 平移不变性:图像中的物体不管在图像中的位置如何变化,我们都能够识别出来。我们不会具体的对每一个像素点进行识别,而是对图像中的一些 特征 进行识别,这些特征是与 位置无关 的。比如我们可以识别出一张人脸,不管这张人脸在图像中的位置如何变化,我们都能够识别出来。这就是平移不变性。这进而引出了卷积神经网络(Covolutional Neural Network,CNN)的一些概念: 空间上的权值共享*:卷积核在图像上滑动,对图像的 *不同位...
摘要: 文章介绍了神经网络中的基本组件如神经元模型、激活函数、多层感知器,并讨论了如何通过损失函数对网络进行优化。神经元模型包含输入、权重、偏置和激活函数,输出结果。激活函数如 Sigmoid、Tanh 和 ReLU 对输出进行非线性变换。多层感知器通过增加隐层提高模型能力,能解决复杂问题。损失函数如均方误差和交叉熵损失测量预测和实际值的误差。L 范数用于正则化以避免过拟合,优化采用梯度下降和误差反向传播。文章还讨论了梯度消失/爆炸、学习率调度、超参数优化和正则化策略。
神经元模型 neuron 神经元模型是神经网络的基本单元,它接收输入信号,对输入信号进行 加权求和 ,权重 / 参数(weight/parameter)的绝对值越大,则代表对应的输入 $x$ 对输出影响越大,然后通过激活函数处理,最后输出结果。 基于向量相乘的实现,分为列格式和行格式。 列格式 $$ \begin{aligned} {x} &= \begin{bmatrix}{x}_1 \\ {x...
摘要: 这篇文章主要介绍了机器学习中的几个基本概念和方法。机器学习是指通过算法的设计与分析,基于经验提升模型在某些任务上的表现,包括任务、经验和表现三要素。文章分别概述了线性回归和线性分类在连续预测和离散预测上的应用,重点讲解了逻辑回归用于分类的过程,包括单位阶跃函数、Sigmoid 函数及其导数的计算和最优化方法。介绍了逻辑回归和线性分类器的局限性以及它们无法很好拟合非线性可分数据的问题。此外,还讨论了最近邻分类器的原理、应用和设置超参数的方法,以及聚类的概念、主观性和常用算法(如 K-means),以及 K-means 算法的步骤和面临的问题。全文旨在通过对这些机器学习方法的讨论,提供对基
机器学习 机器学习:指通过算法的设计与分析使得我们能够 基于经验 提升模型在某些任务上的表现 三要素:任务、经验、表现 线性回归(Linear Regression):连续预测 线性分类(Linear Classification):离散预测,线性决策边界 逻辑回归(Logistic Regression) 用于分类而非回归。输出 “属于一个分类” 的概率。 逻辑回归是 有参方法,它的参数在于线性组合里的各个特征的权重 / 偏置部分。 Unit-step function(单位阶跃函数):这是一个简单的分法,当 $z<0$...
摘要: 文章主要介绍了线性模型和线性回归的基本概念及其数学原理。线性模型通过学习特征的线性组合来进行预测,旨在通过最小化预测值与真实值之间的误差来找到最优的权重和偏置。线性回归则是这一过程的具体实现,使用最小二乘法或梯度下降法来求解参数。文章还探讨了贝叶斯统计在参数估计中的应用,通过最大化后验概率达到参数估计的目的,并讨论了引入正则项来防止过拟合的重要性。最后,通过激活函数将线性模型扩展到非线性预测,增强了模型的适用性。
机器学习 机器学习,指通过算法的设计与分析,使得: 模型的 表现 得到提升 在某些 任务 上 基于 经验 机器学习的任务 有监督学习:这种方式需要提前给模型提供 “正确答案”,让模型在学习过程中有明确的参照。比如: 分类问题:判断输入数据属于哪个类别,例如判断一封邮件是不是垃圾邮件。 回归问题:预测一个连续值,例如预测房屋的价格。 无监督学习:模型在没有 “正确答案” 的情况下自我学习,它会尝试理解数据的结构。 聚类:将数据分组,组...
摘要: 试试烟花吧!
试试烟花吧! ```component import=https://cdn.jsdelivr.net/npm/@innei/react-cdn-components@0.0.7/dist/components/Firework.js name=MDX.Firework height=25 ```