亿博电竞·(中国)平台官网入口

亿博电竞人工智能 ShowMeAI资讯日报 20220613
栏目:电脑IT培训 发布时间:2011-03-02
 亿博电竞亿博电竞:【为机器学习模型生成多样化反事实解释】【简化机器学习工作流】【在线机器学习库】【语音识别工具库】【人脸分析研究工具】【个人Linux服务器管理面板】  系列全新升级!覆盖AI人工智能 工具&框架 项目&代码 博文&分享 数据&资源 研究&论文 等方向。点击查看  github.com/jayleicn/singularity直观地训练一个有效的视频和语言模型需要多帧作为模型输

  亿博电竞亿博电竞:【为机器学习模型生成多样化反事实解释】【简化机器学习工作流】【在线机器学习库】【语音识别工具库】【人脸分析研究工具】【个人Linux服务器管理面板】

  系列全新升级!覆盖AI人工智能 工具&框架 项目&代码 博文&分享 数据&资源 研究&论文 等方向。点击查看

  github.com/jayleicn/singularity直观地训练一个有效的视频和语言模型需要多帧作为模型输入。然而,目前尚不清楚使用多帧是否有利于下游任务,如果是,性能增益是否值得因使用更多帧而大幅增加的计算和内存成本。在这项工作中,我们探索了视频和语言学习的单帧模型。在一组不同的视频和语言任务(包括文本到视频的检索和视频问答)中,我们展示了令人惊讶的结果,即通过大规模预训练和推理时适当的帧集成策略,一个不考虑时间信息的单帧训练模型可以比使用多帧训练的现有方法获得更好的性能。这一结果揭示了流行的视频和语言数据集中存在强烈的“静态外观偏差”。因此,为了对视频和语言模型进行更全面的评估,我们提出了两个基于现有细粒度动作识别数据集的新检索任务,这些数据集鼓励时间建模。我们的代码在

  受人类认知的启发,机器学习系统逐渐展现出更稀疏、更模块化架构的优势。最近的工作表明,一些模块化架构不仅可以很好地泛化,而且还可以带来更好的分布外泛化、缩放属性、学习速度和可解释性。此类系统成功背后的一个关键直觉是,大多数现实世界设置的数据生成系统被认为由稀疏交互的部分组成,赋予模型类似的归纳偏差将是有帮助的。然而,该领域一直缺乏对此类系统的严格定量评估,因为这些现实世界的数据分布是复杂且未知的。在这项工作中,我们通过简单且已知的模块化数据分布的视角,对常见的模块化架构进行了全面评估。我们强调了模块化和稀疏性的好处,并揭示了在优化模块化系统时面临的挑战的见解。在这样做的过程中,我们提出了突出模块化好处的评估指标,这些好处是巨大的,以及当前端到端学习模块化系统的次优性,而不是它们声称的潜力。

  带注释的数据集已经成为开发和评估基于机器学习的遥感数据自动解释方法的最重要的先决条件之一。 在本文中,我们回顾了此类数据集的历史发展,基于几个选定的示例讨论了它们的特征,以及未来发展的未解决问题。

  视觉Transformer(ViTs) 及其多尺度和分层变化已成功地捕获图像表示,但它们的使用通常被研究用于低分辨率图像(例如 - 256x256、384x384)。对于计算病理学中的千兆像素全载玻片成像 (WSI),WSI 可以在 20 倍放大倍率下高达 150000x150000 像素,并在不同分辨率下表现出视觉标记的层次结构:从 16x16 图像捕获细胞之间的空间模式,到 4096x4096 图像表征相互作用在组织微环境中。我们引入了一种新的 ViT 架构,称为分层图像金字塔变换器 (HIPT),它利用 WSI 中固有的自然分层结构,使用两个级别的自监督学习来学习高分辨率图像表示。 HIPT 使用 10,678 个千兆像素 WSI、408,218 个 4096x4096 图像和 104M 256x256 图像对 33 种癌症类型进行了预训练亿博电竞。我们在 9 个幻灯片级任务上对 HIPT 表示进行基准测试,并证明:1) 具有分层预训练的 HIPT 优于当前最先进的癌症分型和生存预测方法,2) 自监督 ViT 能够对重要的归纳建模关于肿瘤微环境中表型的层次结构的偏见。

  我们提出了一种新的视觉语言 (VL) 预训练模型,称为 Kaleido-BERT,它引入了一种新颖的 kaleido 策略,用于从变形器中进行时尚跨模态表示。与最近的 VL 模型的随机掩蔽策略相比,我们设计了对齐引导掩蔽,以共同更多地关注图像-文本语义关系。为此,我们执行了五项新颖的任务,即旋转、拼图、伪装、灰色到彩色和空白到彩色,用于在不同规模的子图块(patch)上进行自我监督的 VL 预训练。 Kaleido-BERT 在概念上很简单,很容易扩展到现有的 BERT 框架,它在四个下游任务上获得了新的最先进的结果,包括文本检索(R@1:4.03% 绝对改进)、图像检索(R@1:7.13% abs imv.)、类别识别(ACC:3.28% abs imv.)和时尚图文描述(Bleu4:1.2 abs imv.)。我们在广泛的电子商务网站上验证了 Kaleido-BERT 的效率,展示了其在实际应用中的更广泛潜力。

  我们使用最大平均差异(MMD)作为评估准则,研究生成对抗网络的训练和性能,称为 MMD GAN。作为我们的主要理论贡献,我们澄清了最近工作提出的 GAN 损失函数中存在偏差的情况:我们证明了 MMD GAN 和 Wasserstein GAN 的优化过程中使用的梯度估计器是无偏的,但是基于样本学习判别器会导致生成器参数的偏置梯度。我们还讨论了 MMD 批评者的内核选择问题,并描述了与用于 Cramer GAN 批评者的能量距离相对应的内核。作为一个完整的概率度量,MMD 受益于最近为 Wasserstein GAN 开发的训练策略。在实验中,MMD GAN 能够使用比 Wasserstein GAN 更小的批评网络,从而产生更简单、更快的训练算法,并具有匹配的性能。我们还提出了一种改进的 GAN 收敛度量,即内核初始距离,并展示了如何在 GAN 训练期间使用它来动态调整学习率。

  github.com/hkzhang91/EdgeFormer最近,视觉transformer开始显示出令人印象深刻的结果,其性能明显优于基于大型卷积的模型。然而,在移动或资源受限设备的小型模型领域,ConvNet 在性能和模型复杂度方面仍然具有自己的优势。我们提出了 EdgeFormer,这是一个纯基于 ConvNet 的骨干模型,通过将视觉转换器的优点融合到 ConvNet 中来进一步增强这些优势。具体来说,我们提出了带有位置嵌入的全局循环卷积(GCC),这是一种轻量级的卷积运算,它拥有全局感受野,同时产生与局部卷积一样的位置敏感特征。我们将 GCC 和挤压激发操作结合起来,形成一个类似于元模型的模型块,它还具有类似于transformer的注意力机制。上述块可以即插即用的方式使用,以替换 ConvNets 或变压器中的相关块。实验结果表明,在常见的视觉任务和数据集中,所提出的 EdgeFormer 比流行的轻量级 ConvNets 和基于视觉变换器的模型具有更好的性能,同时具有更少的参数和更快的推理速度。对于 ImageNet-1k 上的分类智能资讯,EdgeFormer 在大约 500 万个参数的情况下实现了 78.6% 的 top-1 准确率,节省了 11% 的参数和 13% 的计算成本,但与(在基于 ARM 的 Rockchip RK3288 上)相比,准确率提高了 0.2%,推理速度提高了 23%与 MobileViT 相比,仅使用 0.5 倍的参数,但与 DeIT 相比获得了 2.7% 的准确度。在 MS-COCO 对象检测和 PASCAL VOC 分割任务上亿博电竞,EdgeFormer 也表现出更好的性能。代码可在

网站地图