如何在Pages+文稿里抠图？

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>Mac >>如何在Pages+文稿里抠图？

如何在Pages+文稿里抠图？

来源：蜘蛛抓取(WebSpider) 时间：2022-05-04 14:47 标签： pages文稿导出图片

自然图像抠图是一项基本且具有挑战性的计算机视觉任务。通常，该问题被表述为欠约束问题。由于问题是不适定的，因此需要对数据分布进行进一步的假设以使问题适定。对于经典的抠图方法，普遍采用的假设是前景色和背景色的局部平滑度假设。然而，基于深度学习的抠图方法并未系统地考虑使用此类假设。在这项工作中，我们考虑了两个有助于改进深度图像抠图模型的局部平滑假设。基于局部平滑度假设，我们提出了三种技术，即训练集细化、颜色增强和反向传播细化，可以显着提高深度图像抠图模型的性能。我们进行实验来检验所提出算法的有效性。实验结果表明，与现有的抠图方法相比，所提出的方法具有良好的性能。

* 摘要: 深度卷积神经网络发生了巨大的革命，在分类和分割等计算机视觉任务上显示出其优越的性能。近年来，研究人员致力于在保持网络规模的同时缩小网络规模，以适应手机等嵌入式系统的有限内存。在本文中，我们提出了一种多通道训练程序，可以极大地促进目标网络的性能和鲁棒性。所提出的程序包含两组网络和两条信息管道，可以独立工作取决于嵌入式平台的计算能力，同时分类精度也得到了令人钦佩的提高。

* 摘要: 这项工作提出了一种基于场景架构的地点识别新方法。从深度视频中，我们计算 3D 模型，并从几何上推导出和描述 2D 地图，从中推断出场景描述符以构成所提出算法的核心。获得的结果显示了所提出的描述符对场景外观变化和光线变化的效率和鲁棒性。

* 摘要: 虽然在开发模型以解决视觉问答问题上已经做了很多工作，但这些模型将问题与图像特征相关联的能力仍然很少被探索。我们对具有不同损失函数的不同特征提取方法进行了实证研究。我们为视觉问答任务提出了新的数据集，其中多个图像输入只有一个基本事实，并对我们的结果进行基准测试。我们的最终模型利用 Resnet + RCNN 图像特征和 Bert 嵌入，受堆叠注意力网络的启发，在

个参数（宽度和深度）参数化。与金字塔设计相比，该架构系列在所有层上保持输入补丁分辨率。正如我们在各种计算机视觉任务上的实验所表明的那样，它在准确性和复杂性之间产生了令人惊讶的竞争性权衡，尤其是在内存消耗方面：对象分类、图像分割和检测。

多人姿态估计方法通常遵循自上而下和自下而上的范式，两者都可以被认为是两阶段的方法，从而导致计算成本高和效率低。为了实现多人姿势估计任务的紧凑而有效的管道，在本文中，我们建议将人体部位表示为点并提出一种新颖的身体表示，它利用包括人体中心和七个与人体部位相关的自适应点集点以更细粒度的方式表示人类实例。这种新颖的表示更能够捕捉各种姿势变形，并自适应地分解远程中心到关节的位移，从而提供单级可微网络以更精确地回归多人姿势，称为 AdaptivePose。对于推理，我们提出的网络消除了分组和细化，只需要一步解开过程即可形成多人姿势。在没有任何花里胡哨的情况下，我们在 COCO 测试开发数据集上实现了 67.4% AP / 29.4 fps 的最佳速度 - 准确性权衡，DLA-34 和 HRNet-W48 71.3% AP / 9.1 fps。

用于对象检测的实证研究。我们首先揭示不应冻结预训练加法器主干中的批量归一化统计数据，因为 AdderNets 的特征方差相对较大。此外，我们在颈部插入了更多的快捷连接，并设计了一种新的特征融合架构来避免加法层的稀疏特征。我们提出了广泛的消融研究，以探索加法器检测器的几种设计选择。在 COCO 和 PASCAL VOC 基准上进行了与最新技术的比较。具体来说，提议的 Adder FCOS 在 COCO val 集上实现了 37.8% 的 AP，展示了与卷积对应物相当的性能，能量减少了约 1.4 美元。

由于信息存在于现实世界中的各种模态中，多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用。凭借在多模态信息交互建模方面的强大能力，多模态图像合成和编辑已成为近年来的热门研究课题。与提供明确线索的传统视觉引导不同，多模态引导为图像合成和编辑提供了直观、灵活的手段。另一方面，该领域在特征与固有模态差距的对齐、高分辨率图像的合成、忠实的评估指标等方面也面临着几个挑战。 & 根据数据模式和模型架构编辑和制定分类法。我们首先介绍图像合成和编辑中不同类型的指导模式。然后，我们使用详细的框架广泛地描述多模态图像合成和编辑方法，包括生成对抗网络 (GAN)、GAN 反演、变压器以及其他方法，例如 NeRF 和扩散模型。接下来是对多模态图像合成和编辑中广泛采用的基准数据集和相应评估指标的全面描述，以及不同合成方法的详细比较以及各自优缺点的分析。最后，我们提供了对当前研究挑战和未来可能的研究方向的见解。此 https URL 提供与此调查相关的项目

* 摘要: 与传统的哈希方法相比，深度哈希方法生成的哈希码具有丰富的语义信息，在图像检索领域大大提高了性能。然而，目前的深度哈希方法无法满足预测困难示例的相似性。影响学习硬样本能力的主要因素有两个，关键特征提取能力弱和硬样本不足。在本文中，我们给出了一种新颖的端到端模型来从困难示例中提取关键特征并获得具有准确语义信息的哈希码。此外，我们重新设计了一个 hard pairwise 损失函数来评估 hard degree 并更新示例的惩罚权重。它有效地缓解了困难示例中的短缺问题。在 CIFAR-10 和 NUS-WIDE 上的实验结果表明，我们的模型优于主流的基于散列的图像检索方法。

随着移动设备和物联网的普及，深度学习模型越来越多地部署在计算资源和内存有限的设备上，并面临对抗性噪声的威胁。这些设备需要学习具有轻量级和鲁棒性的深度模型。然而，当前的深度学习解决方案很难在不降低其中一个属性的情况下学习具有这两个属性的模型。众所周知，全连接层贡献了卷积神经网络的大部分参数。我们对全连接层进行了可分离的结构变换以减少参数，其中全连接层的大规模权重矩阵由几个可分离的小矩阵的张量积解耦。请注意，图像等数据在馈送到全连接层之前不再需要进行展平，保留了数据的宝贵空间几何信息。此外，为了进一步增强轻量级和鲁棒性，我们提出了对这些可分离矩阵施加稀疏性和可微条件数的联合约束。我们在 MLP、VGG-16 和 Vision Transformer 上评估了所提出的方法。在 ImageNet、SVHN、CIFAR-100 和 CIFAR10 等数据集上的实验结果表明，我们成功地将网络参数量减少了 90%，而鲁棒精度损失小于 1.5%，优于基于 SOTA 的方法原始的全连接层。有趣的是，即使在高压缩率下，例如 200 倍，它也能取得压倒性的优势。

位具有三种不同态度的听众。我们将响应式聆听头部生成任务定义为非语言头部与对多个输入（包括扬声器的音频和视觉信号）做出反应的动作和表情的合成。与语音驱动的手势或说话的头部生成不同，我们在这项任务中引入了更多的模态，希望能够使多个研究领域受益，包括人与人的交互、视频到视频的翻译、跨模态理解和生成。此外，我们发布了一个以态度为条件的聆听头部生成基线。项目页面：\url{this https

在腐败鲁棒性方面优于现有技术，而其简单性和即插即用性质使其能够与其他方法结合以进一步提高其鲁棒性。此外，我们分析了 PRIME 以阐明混合策略对合成损坏图像的重要性，并揭示在常见损坏情况下出现的鲁棒性 - 准确性权衡。最后，我们表明我们方法的计算效率使其可以轻松地用于在线和离线数据增强方案。

并行。通过将每幅图像拆分成一系列固定长度的标记，ViR 构建了一个具有近乎全连接拓扑的纯水库，以取代 ViT 中的 Transformer 模块。随后提出了两种深度 ViR 模型来增强网络性能。 ViR 和 ViT 之间的比较实验是在几个图像分类基准上进行的。在没有任何预训练过程的情况下，ViR 在模型和计算复杂度方面都优于 ViT。具体来说，ViR的参数数量约为ViT的15%甚至5%，内存占用约为ViT的20%至40%。 ViR 性能的优越性可以通过小世界特征、Lyapunov 指数和内存容量来解释。

* 摘要: 在计算机视觉、图像处理和计算机图形学中，图像平滑滤波是一项非常基础和重要的任务，具有良好的边缘保留平滑特性。在这里，我们解决了许多流行的局部平滑滤波器的边缘保留能力需要改进的问题。在本文中，我们提出了图像边缘恢复滤波器（ERF）来恢复局部平滑滤波器输出中的模糊边缘像素清晰。所提出的滤波器可以在许多局部平滑滤波器（如Box filter、Gaussian filter、Bilateral Filter、Guided Filter等）之后实现。 “原始局部平滑滤波器+ERF”的组合比原始局部平滑滤波器具有更好的边缘保留平滑特性。图像平滑、图像去噪和图像增强实验证明了所提出的滤波器具有良好的边缘恢复能力和“原始局部平滑滤波器+ERF”组合的良好边缘保留平滑特性。考虑到平滑滤波是一种经常使用的基本操作，所提出的滤波器将有利于多种应用。

模型都假设基类和新类来自相同的数据域。在识别未知领域中的新类数据时，这成为领域广义少样本分类的更具挑战性的任务。在本文中，我们提出了一种用于域广义少样本分类的独特学习框架，其中基类来自同构的多个源域，而要识别的新类来自在训练期间看不到的目标域。通过推进元学习策略，我们的学习框架利用跨多个源域的数据来捕获域不变特征，并通过跨支持和查询数据的基于度量学习的机制引入 FSL 能力。我们进行了广泛的实验来验证我们提出的学习框架的有效性，并表明从小而同质的源数据中学习能够更好地对抗从大规模数据中学习。此外，我们提供了对用于域广义少样本分类的主干模型选择的见解。

图像，例如自动驾驶。然而，给定的对抗性事件使当前的深度学习模型容易受到安全问题的影响。在这项工作中，我们首次生成对抗性示例，然后为基于事件的数据训练稳健模型。我们的算法改变了原始事件的时间并生成额外的对抗性事件。额外的对抗性事件分两个阶段产生。首先，将空事件添加到基于事件的数据中以生成额外的对抗性事件。扰动的大小可以通过空事件的数量来控制。其次，额外对抗性事件的位置和时间被设置为在基于梯度的攻击中误导 DNN。我们的算法在 N-Caltech101 数据集上实现了 97.95\% 的攻击成功率。此外，与原始模型相比，对抗性训练模型提高了对抗性事件数据的鲁棒性。

随着各种面部操纵技术的出现，由于安全问题，面部伪造检测引起了越来越多的关注。以前的工作总是将人脸伪造检测制定为基于交叉熵损失的分类问题，它强调类别级别的差异而不是真假人脸之间的基本差异，限制了模型在看不见的领域中的泛化。为了解决这个问题，我们提出了一种新的人脸伪造检测框架，称为双对比学习（DCL），它专门构造正负配对数据，并在不同的粒度上执行设计的对比学习来学习广义特征表示。具体而言，结合硬样本选择策略，首次提出实例间对比学习（Inter-ICL），通过特别构建实例对来促进与任务相关的判别特征学习。此外，为了进一步探索本质差异，引入了实例内对比学习（Intra-ICL），通过在实例内部构建局部区域对来关注伪造人脸中普遍存在的局部内容不一致。对几个数据集的大量实验和可视化证明了我们的方法对最先进的竞争对手的推广。

雷达图中引入了杂波，使数据处理和解释更加困难。为了解决这些问题，提出了一种称为掩模引导的多极化集成神经网络 (MMI-Net) 的新型神经网络架构，用于在异质土壤环境中自动并同时估计多个与根相关的参数。 MMI-Net 包括两个子网络：一个 MaskNet 预测一个掩码以突出根反射区域以消除干扰环境杂波，一个 ParaNet 使用预测的掩码作为指导来集成、提取和强调多方面的信息特征。用于准确估计五个关键根相关参数的极化雷达图。参数包括根深、直径、相对介电常数、水平和垂直方向角。实验结果表明，所提出的 MMI-Net 在这些与根相关的参数中实现了高估计精度。这是第一项将根参数和空间方向的综合贡献考虑在内并同时估计多个与根相关的参数的工作。论文中实现的数据和代码可以在这个 https URL 中找到。

数字图像水印旨在保护数字媒体信息免受未经授权的访问，其中将消息嵌入数字图像并从中提取，甚至在包括有损图像压缩和交互式内容编辑在内的各种数据处理下应用一些噪声或失真。当指定一些先验约束时，传统的图像水印解决方案很容易受到鲁棒性的影响，而最近的基于深度学习的水印方法在特征编码器和解码器的各种独立管道下无法很好地解决信息丢失问题。在本文中，我们提出了一种具有紧凑神经网络的新型数字图像水印解决方案，称为可逆水印网络（IWN）。我们的 IWN 架构基于单个可逆神经网络 (INN)，这种双射传播框架使我们能够有效地同时解决消息嵌入和提取的挑战，将它们视为一对彼此的逆问题并学习稳定的可逆映射。为了增强我们的水印解决方案的鲁棒性，我们专门引入了一个简单但有效的比特消息归一化模块来压缩要嵌入的比特消息，并在我们的 IWN 框架下设计了一个噪声层来模拟各种实际攻击。大量实验证明了我们的解决方案在各种失真下的优越性。

* 摘要: 由于自然灾害（例如，飓风、森林火灾、洪水、地震）的发生显着增加，机器学习社区最近对气候和灾害破坏领域的兴趣增加。然而，人们对减轻即将发生的自然灾害可能造成的破坏并没有给予足够的重视。我们通过在事前预测建筑物层面的损坏来探索这个关键空间，这将使国家行为者和非政府组织能够最好地配备资源分配，以最大限度地减少或预防损失。我们引入了 PreDisM，它采用 ResNets 和决策树上的全连接层的集合来捕获图像级和元级信息，以准确估计人造结构对灾难发生的弱点。我们的模型表现良好，可以响应各种灾害类型的调整，并突出了先发制人的灾害损害建模的空间。

1.0 优于 SSD 系列；但是，它的吞吐速度稍慢。

* 摘要: 手写文本识别是自动文档图像分析领域中一个非常有趣的开放问题。数字化文档中手写内容的转录对于分析历史档案或将手写文档、表格和通信中的信息数字化具有重要意义。在过去的几年中，由于将深度学习技术应用于其解决方案，该领域取得了巨大进步。本论文解决了离线连续手写文本识别 (HTR) 问题，包括开发能够转录图像中存在的文本而无需将文本分割成字符的算法和模型。为此，我们提出了一种基于集成两种深度学习架构的新识别模型：分别是卷积神经网络 (CNN) 和序列到序列 (seq2seq) 模型。该模型的卷积组件面向识别字符中存在的相关特征，而 seq2seq 组件通过对文本的顺序性质进行建模来构建文本的转录。在设计这个新模型时，对不同卷积架构在孤立字符识别的简化问题中的能力进行了广泛的分析，以确定最适合集成到连续模型中的那些。此外，针对连续问题所提出的模型进行了大量实验，以确定其对参数化变化的鲁棒性。该模型的泛化能力也已通过在三个使用不同语言的手写文本数据库上进行评估而得到验证：分别是英语的 IAM、法语的 RIMES 和西班牙语的 Osborne。新提出的模型提供了与使用其他成熟方法获得的结果相比具有竞争力的结果。

* 摘要: 论文通过模仿人脑的学习和思考过程，提出了一种基于语义聚类的演绎学习。人类可以根据经验和认知做出判断，因此，没有人会将未知的动物识别为汽车。受这一观察的启发，我们建议使用聚类先验训练深度学习模型，该模型可以引导模型通过语义推断和总结分类属性的能力进行学习，例如猫属于动物，而汽车属于车辆。 % 具体来说，如果一张图像被标记为一只猫，那么模型会被训练来学习“这个图像完全不是任何作为动物异常值的随机类别”。所提出的方法实现了语义空间中的高层聚类，使模型能够在学习过程中推断出各个类之间的关系。此外，本文引入了基于语义先验的随机搜索相反标签，以确保聚类的平滑分布和分类器的鲁棒性。通过广泛的实验，所提出的方法得到了理论和经验的支持。我们在流行的基准测试中比较了最先进的分类器的性能，并通过向数据集添加噪声标签来验证泛化能力。实验结果证明了所提出方法的优越性。

生成器分别用于增强和降级。然而，这种数据驱动的模型忽略了低光和正常光图像之间转换的固有特征，导致训练不稳定和伪影。在这里，我们建议利用可逆网络来增强前向过程中的低光图像，并与非配对学习相反地降低正常光图像。然后将生成的图像和真实图像送入判别器以进行对抗性学习。除了对抗性损失之外，我们还设计了各种损失函数来保证训练的稳定性并保留更多的图像细节。特别地，引入了可逆性损失以缓解过度曝光问题。此外，我们提出了一种针对低光图像的渐进式自引导增强过程，并针对 SOTA 实现了良好的性能。

尽管深度学习模型取得了前所未有的成功，但它们对对抗性攻击的脆弱性引起了越来越多的关注，尤其是在部署在安全关键领域时。为了应对这一挑战，已经提出了许多防御策略，包括被动和主动策略，以提高鲁棒性。从图像特征空间的角度来看，由于特征的偏移，其中一些不能达到令人满意的结果。此外，模型学习的特征与分类结果没有直接关系。与它们不同的是，我们本质上从模型内部考虑防御方法，并研究攻击前后的神经元行为。我们观察到攻击通过显着改变对正确标签贡献最大和最小的神经元来误导模型。受其启发，我们引入了神经元影响的概念，并将神经元进一步划分为前部、中部和尾部。在此基础上，我们提出了神经元级逆扰动（NIP），这是第一个针对对抗性攻击的神经元级反应防御方法。通过加强前端神经元并削弱尾部神经元，NIP 可以消除几乎所有对抗性扰动，同时仍保持较高的良性准确性。此外，它可以通过自适应处理不同大小的扰动，尤其是较大的扰动。在三个数据集和六个模型上进行的综合实验表明，NIP 在对抗 11 种对抗性攻击时优于最先进的基线。我们通过神经元激活和可视化进一步提供可解释的证明，以便更好地理解。

单元中，通过门的输出乘以自身的函数来控制通过门的信息流。此外，我们在双向设置中使用两个 SGM 单元来提高输出质量。与现有的 HDR 反虚反射方法相比，所提出的方法在三个公开可用的数据集上定量地实现了最先进的性能，同时实现了可扩展性以融合可变长度的输入序列，而无需重新训练。通过广泛的消融，我们证明了我们提出的方法中各个组件的重要性。该代码可在此 https URL 处获得。

不同，它侧重于对自然语言表达式所引用的对象进行接地，而不是对可导航区域进行接地。例如，对于“停在黄色轿车旁边”的命令，RIS 的目标是分割所提及的轿车，而 RNR 的目标是分割道路上建议的停车区域。我们引入了一个新的数据集 Talk2Car-RegSeg，它使用语言命令描述的区域的分割掩码扩展了现有的 Talk2car 数据集。提供了一个带有简洁的面向操作的命令的单独测试拆分来评估我们数据集的实用性。我们使用基于变压器的新型架构对提议的数据集进行基准测试。我们提出了广泛的消融，并在多个评估指标上显示出优于基线的卓越性能。基于 RNR 输出生成轨迹的下游路径规划器证实了所提出框架的有效性。

* 摘要: 我们提出了布朗行人里程计数据集 (BPOD)，用于在头戴式行人环境中对视觉里程计算法进行基准测试。该数据集是在布朗大学校园内 12 个不同的室内和室外位置使用同步全局和滚动快门立体相机捕获的。与现有数据集相比，BPOD 包含更多的图像模糊和自旋转，这在行人里程计中很常见，但在其他地方很少见。真实轨迹由沿行人路径放置的粘贴标记生成，行人的位置使用第三人称视频记录。我们评估了 BPOD 上具有代表性的直接、基于特征和基于学习的 VO 方法的性能。我们的结果表明，要成功捕捉行人轨迹，需要进行重大开发。数据集的链接在这里：\url{this https URL

输入的空间特征。在此基础上，我们设计了光谱轮廓插值（SPI）模块和神经注意力映射（NAM）模块来丰富深度特征，其中涉及空间光谱相关性以获得更好的表示。然后，我们将采样的光谱带数视为连续隐函数的坐标，从而学习从深层特征到光谱强度的投影。大量实验证明了 NeSR 在重建精度方面优于基线方法的明显优势。此外，NeSR 通过启用任意数量的光谱带作为目标输出，扩展了光谱重建的灵活性。

US-GAN，这是一种通过使用明显更小的数据集来合成合理表达式的更小而有效的方法。所提出的方法包括编码层、单个残差块、解码层和将输入图像链接到输出图像的最终跳过连接。与最先进的面部表情合成方法相比，它的参数少三倍。实验结果证明了我们提出的方法的定量和定性有效性。此外，我们还表明，最终的跳过连接足以恢复输入面部图像的丰富面部和整体颜色细节，而较大的最新模型无法恢复。

* 摘要: 我们介绍了领域感知连续零镜头学习 (DACZSL)，该任务是按顺序视觉识别未见领域中未见类别的图像。我们在 DomainNet 数据集之上创建了 DACZSL，将其划分为一系列任务，其中在训练期间在可见域上增量提供类，并对可见和不可见类的不可见域进行评估。我们还提出了一种新的域不变 CZSL 网络 (DIN)，它优于我们适应 DACZSL 设置的最先进的基线模型。除了全局共享网络之外，我们还采用基于结构的方法，通过一个小型的每任务专用网络来减轻先前任务中的知识遗忘。为了鼓励私有网络捕获特定领域和特定任务的表示，我们使用一种新颖的对抗性知识解开设置训练我们的模型，以使我们的全局网络在所有任务上具有任务不变性和领域不变性。我们的方法还学习了一个类明智的可学习提示，以获得更好的类级文本表示，它用于表示辅助信息，以实现对未来看不见的类的零样本预测。我们的代码和基准将公开提供。

方法，以加强由学习分类器引导的潜在子空间上的跨模态潜在特征的对齐。此外，我们提出了一种新的信息增强模块 (IEM)，以减少潜在变量崩溃的可能性，同时鼓励潜在变量的判别能力。对公开可用数据集的大量实验证明了我们方法的最先进性能。

场景的语义和占用表示。此任务的许多方法始终基于体素化场景表示以保持局部场景结构。然而，由于可见空体素的存在，当网络更深时，这些方法总是受到大量计算冗余的影响，从而限制了完成质量。为了解决这个难题，我们为此任务提出了我们新颖的点体素聚合网络。首先，我们通过去除这些可见的空体素将体素化的场景转移到点云，并采用深度点流从场景中有效地捕获语义信息。同时，仅包含两个 3D 卷积层的轻量级体素流保留了体素化场景的局部结构。此外，我们设计了一个各向异性体素聚合算子将体素流的结构细节融合到点流中，并设计了一个语义感知传播模块，通过语义标签增强点流中的上采样过程。我们证明我们的模型在两个基准上大大超过了最先进的技术，只有深度图像作为输入。

模型预测的字符分割图，我们为每个实例构建一个子图，其中节点表示其中的像素，并根据节点的空间相似性在节点之间添加边。然后，这些子图通过它们的根节点依次连接并合并成一个完整的图。基于此图，我们通过使用交叉熵损失对其进行监督来设计用于文本推理 (GTR) 的图卷积网络。由于更好的文本推理，GTR 可以轻松插入代表性 STR 模型以提高其性能。具体来说，我们通过将 GTR 与基于分段的 STR 基线中的语言模型并行构建我们的模型，即 S-GTR，可以通过相互学习有效地利用视觉语言互补性。 S-GTR 在六个具有挑战性的 STR 基准测试中设置了最新的最新技术，并且可以很好地推广到多语言数据集。此 https URL 提供代码。

* 摘要: 生成对抗网络 (GAN) 是最先进的图像生成技术背后的驱动力。尽管它们能够合成高分辨率照片般逼真的图像，但生成具有不同粒度的按需调节的内容仍然是一个挑战。通常通过用感兴趣的属性注释大量数据集来解决这一挑战，这是一项艰巨的任务，并不总是可行的选择。因此，在无监督生成模型的生成过程中引入控制至关重要。在这项工作中，我们通过利用以无监督方式训练有素的 GAN 来专注于可控图像生成。为此，我们发现生成器中间层的表示空间形成了许多集群，这些集群根据语义上有意义的属性（例如，头发颜色和姿势）将数据分开。通过对集群分配进行调节，所提出的方法能够控制生成图像的语义类别。我们的方法可以通过隐式最大似然估计 (IMLE) 从每个集群中采样。我们使用不同的预训练生成模型展示了我们的方法在人脸（CelebA-HQ 和 FFHQ）、动物（Imagenet）和物体（LSUN）上的功效。结果突出了我们的方法根据性别、姿势和面部发型等属性以及不同对象类别的各种特征来调节图像生成的能力。

(HSPACE)，其中包含放置在复杂合成室内和室外环境中的动画人物。我们将一百个不同年龄、性别、比例和种族的个体与数百个动作和场景以及身体形状的参数变化（总共 1,600 个不同的人）结合起来，以生成初始数据集超过 100 万帧。人体动画是通过将富有表现力的人体模型 GHUM 拟合到人的单次扫描来获得的，然后是新颖的重新定位和定位程序，支持穿着人体的逼真动画、身体比例的统计变化以及共同一致的场景放置多人移动。资产是按比例自动生成的，并且与现有的实时渲染和游戏引擎兼容。带有评估服务器的数据集将可用于研究。我们对合成数据影响的大规模分析，结合真实数据和薄弱的监督，强调了在这种实际环境中，与增加模型容量相关的持续质量改进和限制模拟与真实差距的巨大潜力.

射线数据集进行了系统实验，以探索几个性能指标在不同类别比率下的行为，并表明广泛采用的指标可以隐藏少数类别的性能。最后，我们建议采用两个替代指标，精确召回曲线和平衡 Brier 分数，它们更好地反映了系统在此类场景中的性能。我们的结果表明，研究界目前采用的胸部 X 射线分类器评估实践可能无法反映此类系统在实际临床场景中用于计算机辅助诊断的性能，并建议改进这种情况的替代方法。

标准机器学习无法适应不属于训练分布的输入。由此产生的模型通常会导致自信的错误预测，这可能会导致毁灭性的后果。这个问题在密集预测的背景下尤其需要，因为输入图像可能部分异常。以前的工作通过对混合内容图像的判别训练解决了密集异常检测问题。我们用合成负补丁扩展了这种方法，同时实现了高内点似然和统一的判别预测。由于其出色的分布覆盖范围和以不同分辨率生成样本的能力，我们生成具有归一化流的合成底片。我们还建议根据原则性信息理论标准检测异常，该标准可以通过训练和推理一致应用。尽管计算开销最小并避免使用辅助负面数据，但由此产生的模型在标准基准测试和数据集上设定了最新技术水平。

* 摘要: 视觉里程计（VO）估计是车辆状态估计和自动驾驶的重要信息来源。最近，基于深度学习的方法开始出现在文献中。然而，在驾驶环境中，由于环境因素、相机放置等导致图像质量下降，基于单传感器的方法往往容易失败。为了解决这个问题，我们提出了一个深度传感器融合框架，它使用两者来估计车辆运动来自多个车载相机的姿态和不确定性估计。我们使用混合 CNN - RNN 模型从一组连续图像中提取时空特征表示。然后，我们利用混合密度网络 (MDN) 将 6-DoF 姿态估计为分布的混合和融合模块，以使用来自多相机的 MDN 输出估计最终姿态。我们在公开可用的大规模自动驾驶汽车数据集 nuScenes 上评估我们的方法。结果表明，与基于单个相机的估计相比，所提出的融合方法超越了最先进的技术，并提供了稳健的估计和准确的轨迹。

* 摘要: 视觉里程计 (VO) 用于许多应用，包括机器人和自主系统。然而，基于特征匹配的传统方法计算成本高，并且不能直接解决故障情况，而是依靠启发式方法来检测故障。在这项工作中，我们提出了一个基于深度学习的 VO 模型来有效地估计 6-DoF 姿态，以及这些估计的置信度模型。我们利用 CNN - RNN 混合模型从图像序列中学习特征表示。然后，我们采用混合密度网络 (MDN)，根据提取的时空表示将相机运动估计为高斯混合。我们的模型使用姿势标签作为监督来源，但以无监督的方式得出不确定性。我们在 KITTI 和 nuScenes 数据集上评估了所提出的模型，并报告了广泛的定量和定性结果，以分析姿势和不确定性估计的性能。我们的实验表明，除了使用预测的姿势不确定性检测故障案例外，所提出的模型还超过了最先进的性能。

中挖掘特征对于医生实现准确诊断具有重要意义。目前，HS生物标志物的挖掘不充分，HS生物标志物用于前列腺癌诊断的有效性和稳健性尚未得到探索。在这项研究中，构建了来自不同数据分布的生物标志物。结果表明 HS 生物标志物可以在不同的数据分布中获得更好的性能。

导航系统。所有这些传感器都经过良好校准和同步，并且同时记录了它们的数据。地面实况轨迹由运动捕捉设备、激光 3D 跟踪器和 RTK 接收器获得。该数据集包含在包括室内和室外环境在内的不同场景中捕获的 36 个序列（约 1TB）。我们在 M2DGR 上评估最先进的 SLAM 算法。结果表明，现有解决方案在某些情况下表现不佳。为了研究社区的利益，我们公开了数据集和工具。我们项目的网页就是这个https URL。

* 摘要: 对 SPECT 图像进行分类需要一个预处理步骤，该步骤使用归一化区域对图像进行归一化。归一化区域的选择不是标准的，使用不同的归一化区域会引入归一化区域相关的变异性。本文从数学上分析了归一化区域的作用，表明归一化分类正好等价于乘法等价下图像半射线的子空间分离。使用这种几何结构，提出了一种新的自归一化分类策略。该策略完全消除了归一化区域。该理论用于对来自帕金森病进展标志物倡议

方法创建逼真的模拟图像。通过训练生成的数据集，我们提出了一个定量内窥镜深度估计网络。与现有的基于无监督训练的结果相比，所提出的方法代表了更好的评估分数。

染色来了解肺癌的亚型，其中染色是在从活检中抽吸的组织上进行的。研究报道，组织学类型与肺癌的预后和治疗有关。因此，肺癌组织学的早期准确检测迫在眉睫，其治疗取决于组织学类型、分子特征和疾病分期，因此分析肺癌的组织病理学图像至关重要。因此，为了加快肺癌诊断的重要过程并减轻病理学家的负担，使用了深度学习技术。这些技术在癌症组织病理学载玻片的分析中显示出更高的功效。几项研究报告了卷积神经网络 (CNN) 在各种癌症类型（如脑癌、皮肤癌、乳腺癌、肺癌、结肠直肠癌）的组织病理学图片分类中的重要性。在这项研究中，通过使用 ResNet 50、VGG-19、Inception_ResNet_V2 和 DenseNet 进行特征提取和三元组损失来引导 CNN，使其增加簇间距离并减少簇内距离。

的采集速度较慢。这两个问题都可以通过欠采样来解决，例如稀疏采样。然而，这种欠采样的数据会导致较低的分辨率并引入伪影。已经提出了几种技术，包括基于深度学习的方法来重建此类数据。然而，这两种模态的欠采样重建问题一直被认为是两个不同的问题，并由不同的研究工作分别解决。本文提出了一种针对稀疏 CT 和欠采样径向 MRI 重建的统一解决方案，通过对径向 MRI 应用基于傅立叶变换的预处理，然后使用正弦图上采样结合滤波反投影来重建两种模态来实现。 Primal-Dual 网络是一种基于深度学习的重建稀疏采样 CT 数据的方法。本文介绍了Primal-Dual UNet，它在精度和重构速度方面对Primal-Dual网络进行了改进。所提出的方法导致平均 SSIM 为 0.932，同时对稀疏度为 16 的扇形光束几何进行稀疏 CT 重建，与之前的模型相比，实现了统计上的显着改进，结果为 0.919。此外，所提出的模型产生了 0.903 和 0.957 的平均 SSIM，同时以 16 的加速因子重建欠采样的大脑和腹部 MRI 数据 - 与原始模型相比，具有统计学意义的显着改进，产生了 0.867 和 0.949。最后，本文表明所提出的网络不仅提高了整体图像质量，而且提高了感兴趣区域的图像质量；以及在有针的情况下更好地概括。

每天有数以百万计的包裹由世界各地的在线和本地零售商店成功交付。需要正确交付包裹以确保高客户满意度和重复购买。尽管商店尽了最大努力，但这些交付仍会遇到各种问题。这些问题的发生不仅是由于体积大和对低周转时间的高需求，还因为机械操作和自然因素。这些问题的范围从收到包裹中的错误物品到延迟发货，再到由于运输过程中处理不当造成的包裹损坏。寻找发送方和接收方面临的各种交付问题的解决方案对于提高整个流程的效率起着至关重要的作用。本文展示了如何使用来自文本评论和上传图像的客户反馈来查找这些问题。我们对文本和图像模型都使用了迁移学习，以最大限度地减少对数千个标记示例的需求。结果表明，该模型可以发现不同的问题。此外，它还可以用于瓶颈识别、流程改进、自动退款等任务。与现有流程相比，本文提出的文本和图像模型的集成确保了对几种类型的交付问题的识别，这是更适合零售业务中物品交付的现实场景。该方法可为类似行业的包裹递送提供一种新的问题检测思路。

DDPM 的情况下，这种困难被作者称为“理想导数替代”的技巧所缓解。新派生的高阶采样器被应用于图像和语音生成任务，实验观察到，所提出的采样器可以在相对较少的细化步骤中合成合理的图像和音频信号。

的模型来减少图像中的伪影。与现有技术相比，可以看到显着的改进。

的结构支持这样一种假设，即幻觉运动可能是感知大脑自己的预测而不是感知来自眼睛的原始视觉输入的结果。本文的科学动机是证明对虚幻运动的感知可能是大脑预测能力的副作用。本文的哲学动机是引起人们对“动机失败”的未开发潜力的关注，即人工系统在生物系统失败时失败的方式，作为人工智能和人工生命研究的一个有价值的出路。

度图像压缩中，引入了区域打包和平铺表示等技术来缓解过采样问题，但取得的成功有限。在本文中，我们首次尝试学习用于全向图像压缩的深度神经网络。我们首先将参数伪圆柱表示描述为常见伪圆柱地图投影的概括。提出了一种计算上易于处理的贪婪方法，用于根据率失真性能的新代理目标确定伪圆柱表示的（次）最优配置。然后，我们提出了用于 360 度图像压缩的伪圆柱卷积。在参数表示的合理约束下，伪圆柱卷积可以通过具有所谓伪圆柱填充的标准卷积有效地实现。为了证明我们想法的可行性，我们实现了一个端到端的 360 度图像压缩系统，由学习的伪圆柱表示、分析变换、非均匀量化器、合成变换和熵模型组成。对 19,790 美元全向图像的实验结果表明，我们的方法始终比竞争方法实现更好的率失真性能。此外，对于所有比特率的所有图像，我们的方法的视觉质量都得到了显着提高。

* 摘要: 先进的可穿戴设备越来越多地采用高分辨率多摄像头系统。由于用于处理生成的图像数据的最先进的神经网络在计算上的要求越来越高，人们越来越有兴趣利用第五代 (5G) 无线连接和移动边缘计算将这种处理卸载到云端。为了评估这种可能性，本文详细模拟和评估了 5G 无线卸载，用于在名为 VIS4ION 的强大新型智能可穿戴设备中进行物体检测，适用于盲人和视力障碍者 (BVI)。当前的 VIS4ION 系统是一个仪器化的书包，带有高分辨率摄像头、视觉处理以及触觉和音频反馈。论文考虑将摄像头数据上传到移动边缘云进行实时物体检测，并将检测结果传回可穿戴设备。为了确定视频要求，本文评估了视频比特率和分辨率对目标检测精度和范围的影响。利用带有与 BVI 导航相关的标记对象的新街道场景数据集进行分析。视觉评估与详细的全栈无线网络模拟相结合，以确定吞吐量和延迟的分布，以及来自城市环境中新高分辨率 3D 模型的真实导航路径和光线追踪。为了进行比较，无线仿真同时考虑了标准 4G 长期演进 (LTE) 载波和高速 5G 毫米波 (mmWave) 载波。因此，这项工作提供了对具有高带宽和低延迟要求的应用程序中具有毫米波连接的边缘计算的彻底和现实的评估。

的方法包括精心设计的细节提取算法，可从图像中捕获最重要的高频信息。然后，两个鉴别器分别用于监督图像域和细节域恢复。 DSRGAN 通过细节增强的方式将恢复的细节融合到最终的输出中。 DSRGAN 的特殊设计同时利用了基于模型的常规算法和数据驱动的深度学习网络。实验结果表明，DSRGAN 在感知指标上优于最先进的 SISR 方法，并同时在保真度指标方面取得了可比的结果。继 DSRGAN 之后，将其他常规图像处理算法纳入深度学习网络，形成基于模型的深度 SISR 是可行的。

$O(P)$ 个时钟周期到 $O(P^2)$ 个时钟周期内计算 2D 卷积和互相关。因此，在性能与所需的资源数量和类型之间存在权衡。我们使用现代可编程设备（Virtex-7 和 Zynq-SOC）提供所提议架构的实现。根据所需资源的数量和类型，我们表明所提出的方法明显优于当前方法。

* 摘要: 离散周期氡变换 (DPRT) 已广泛用于涉及从投影重建图像的应用中。本手稿介绍了一种用于计算正向和反向 DPRT 的快速且可扩展的方法，该方法基于使用：(i) 定点加法器树的并行阵列，(ii) 循环移位寄存器，无需访问外部存储器为加法器树选择输入数据时的组件，(iii) 一种基于图像块的 DPRT 计算方法，可以使建议的架构适合可用资源，以及 (iv) 在一个或几个时钟周期内计算的快速转置不依赖于输入图像的大小。因此，对于 $N\times N$ 图像（$N$ 素数），所提出的方法可以在每个时钟周期计算多达 $N^{2}$ 次添加。与之前的方法相比，可伸缩方法为不同数量的计算资源提供了最快的已知实现。例如，对于 $251\times 251$ 的图像，对于比收缩实现所需的触发器少约 $25\%$，我们认为可扩展 DPRT 位添加，并在速度和额外的 1 位添加之间进行权衡。所有提议的 DPRT 架构都在 VHDL 中实现，并使用 FPGA 实现进行了验证。

表示如何发挥作用。特别是，我们确定了三个有趣的特性：1）与之前的工作相比，我们表明可以定义一系列导致低度特征重用的合成基准——表明当前的小样本学习基准可能不具备元学习算法成功所需的属性； 2）当类（或概念）的数量有限时会发生元过度拟合，一旦任务具有无限数量的概念（例如在线学习），这个问题就会消失； 3) 在元测试时使用 MAML 进行更多的适应并不一定会导致显着的表示变化甚至元测试性能的改进——即使在我们提出的综合基准上进行训练时也是如此。最后，我们建议为了更好地理解元学习算法，我们必须超越仅跟踪绝对性能，此外，正式量化元学习的程度并将两个指标一起跟踪。以这种方式在未来的工作中报告结果将帮助我们更准确地识别元过度拟合的来源，并帮助我们设计更灵活的元学习算法，学习超越固定特征重用。最后，我们推测重新思考元学习的核心挑战在于小样本学习数据集和基准的设计——而不是算法，正如之前的工作所建议的那样。

种不同的方法来计算多样性。我们继续表明，在对 MAML 学习解决方案与迁移学习进行公平比较时，两者都具有相同的元测试准确性。这表明迁移学习未能胜过 MAML - 与之前的工作建议相反。总之，这两个事实提供了多样性是否与元学习成功相关的第一个测试，因此表明多样性系数为零与迁移学习和 MAML 学习解决方案之间的高度相似性相关——尤其是在元测试时。因此，我们推测当多样性系数为零时，元学习解决方案具有与迁移学习相同的元测试性能。

图像中学习的深度生成先验的最大后验估计。为了对生成组织反射率先验进行建模，我们利用归一化流，近年来已证明它在对各种应用的信号先验建模方面非常强大。为了便于概括，我们分解先验并在来自纽约大学 fastMRI（完全采样）数据集的补丁上训练我们的流模型。然后将该先验用于迭代去噪方案中的推理。我们首先验证我们学习的先验对嘈杂 MRI 数据（无先验域偏移）的效用，然后转向评估来自 PICMUS 和 CUBDL 数据集的模拟和体内超声图像的性能。结果表明，该方法在数量和质量上都优于其他（无监督）超声去噪方法（NLM 和 OBNLM）。

DNN 后门测试并提出了 CatchBackdoor 框架。通过对少量良性示例中的关键神经元进行差分模糊测试，我们识别木马路径，尤其是关键路径，并通过模拟识别路径中的关键神经元来生成后门测试示例。大量实验证明了 CatchBackdoor 的优越性，比现有方法具有更高的检测性能。 CatchBackdoor 在通过隐蔽混合和自适应攻击检测后门方面效果更好，而现有方法无法检测到这些。此外，我们的实验表明，CatchBackdoor 可能会揭示 Model Zoo 中模型的潜在后门。

速度和通过聚类获得的运动物体的多普勒速度来估计运动物体的速度。为了确保实时处理，我们设置了适当的最小二乘参数。同时，为了验证算法的有效性，我们在自动驾驶仿真平台CARLA上建立了FMCW LiDAR模型，用于生成数据。结果表明，在Ryzen 3600x CPU的算力下，我们的算法至少可以处理450万个点，每秒估计150个运动物体的速度，运动状态检测准确率超过99%，速度估计准确率达到0.1多发性硬化症。

损伤程度的方法，该方法将深度学习与严格而全面的方法相结合，在统计测试的帮助下优化超参数。我们还使用了一种架构，该架构允许更快地计算深度集成平均，并使用迁移学习执行适用于网络的统计测试。我们将我们的方法应用于具有 1300 多张图像的彗星分析数据集，并获得了 0.84 的 $R^2$，其中输出包括每个预测的置信区间。所提出的架构是对当前方法的改进，因为它将不确定性估计速度提高了 30 倍，同时在统计上更加严格。

扫描数据中重建高质量的 CT 图像，包括低剂量、稀疏视图和有限角度场景。为了完成这项任务，我们训练了一个生成对抗网络 (GAN) 作为先验信号，与 CT 数据的迭代同步代数重建技术 (SART) 结合使用。该网络包含一个自我注意块，用于对数据中的远程依赖项进行建模。我们将用于 CT 图像重建的 Self-Attention GAN 与几种最先进的方法进行了比较，包括去噪循环 GAN、CIRCLE GAN 和全变差优化算法。我们的方法被证明具有与 CIRCLE GAN 相当的整体性能，同时优于其他两种方法。

设为“星标”，重磅干货，第一时间送达。

今天推荐几个好用的网站和软件，没有详细测试（过两天测试完了我再更新），大家挑这用，如果懒得试可以直接在文章下边找到之前测试过的好用的

1、搞定设计在线抠图：/koutu
2、变色龙在线抠图：//

语音转换、图片在线处理、文字在线识别、

图像去雾处理、图像无损放大、黑白图片上色、拉伸图像修复

图片识别、银行卡识别、sfz识别、营业执照识别、行驶证 / 驾驶证识别、表格文字识别、手写文字识别

今天分享两款简单粗暴的工具软件，在线工具，不用安装，只需收藏。

gaoding在线智能抠图工具
先上传图片，然后和上次的软件一样，用鼠标划一划就能扣出想要的东西。非常简单

超好用的在线视频、图片、音频等转换工具：

各位周末愉快，今天分享一款简单粗暴无脑的抠图软件。

在一般情况下，我们做图像抠图，都是用ps的。不过ps这个软件专业性稍微有点强，很多初学者可能不会用。

TeoreX PhotoScissors是一款非常容易上手使用的智能抠图工具，它能智能地实现了前景与背景的分割，几秒钟就可以完成。使用它能让您快速标记要去除的区域，和你想保留的区域，然后程序会自动处理，裁剪边缘优化分析，做到最方便地抠图。

关注公众号【DLGG创客DIY】

后台发送“抠图”获取下载地址

你点的每个在看，我都当成喜欢

看过宫崎骏动画电影《天空之城》的小伙伴，想必偶尔会向往那座神秘的空中岛屿拉普达吧。近日，密歇根大学安娜堡分校博士后研究员 Zhengxia Zou 进行了一项研究，不仅可以创建空中堡垒，更可以转变场景中的天气和光照，让你有身临其境的感觉。此外，这项研究完全基于视觉，能够很好地应用于在线或离线场景，且可以执行实时处理。

哈尔的移动城堡？天空之城？这幅图是否让你想起了这两部电影中的场景……
上：《天空之城》剧照；下：《哈尔的移动城堡》剧照。
是电影场景变为现实了吗？真的有人建造了一座空中楼阁？答案是也不是。
这座空中城堡的确是人为「构建」的，但并非真实存在。它是密歇根大学博士后研究员 Zhengxia Zou 近期一项研究所呈现的效果。
 荒野、公路、疾驰的汽车，还有天边的巨型神秘建筑物，有科幻 / 末世电影内味儿了。然而，这幅场景竟然是从晴空万里的画面转换而成的。公路片变身科幻片？！
别急，还有大招。（以下示例左图为原始画面，右图为处理后画面。）
 右图场景是不是更像《天空之城》了？
这场景让人想起一句歌词「打开这深夜，抚摸寒星光，我只想走进圆月亮」。
除了改变天空（比如增加悬浮城堡、改变色彩和云朵等），这项技术还能变换场景中的天气和光照。
雷暴预警！一瞬间天昏地暗，雷电交加。
看起来，这项技术似乎都可以用到电影业了。那它是如何做到的呢？
这项研究提出一种用于视频中天空置换与协调的视觉方法，该方法能够在风格可控的视频中自动生成逼真的天空背景。以往的天空编辑方法要么针对静态图片，要么需要在智能手机上集成惯性测量单元（IMU）以便拍摄视频，而这项研究是完全基于视觉的，对视频捕获设备没有任何要求，还能很好地应用于在线或离线场景。此外，该方法可以执行实时处理，无需用户交互。
研究人员将这个艺术加工过程分解成 3 个任务：天空抠图（sky matting）、运动估计和图像融合，并在智能手机和行车记录仪在户外采集到的视频上进行了实验，结果表明该方法在视觉质量以及光照、动态方面均具有高保真度和不错的泛化性。

下图概述了该研究提出的方法，它由 3 个模块组成：天空抠图网络、运动估计算法以及 skybox。

天空抠图网络用来检测视频帧中的天空区域。与以往将此过程定义为二元像素级分类（前景 vs 天空）问题的方法不同，该研究设计了一种基于深度学习的由粗到细的预测 pipeline，以产生更精确的检测结果和更悦目的混合效果。

运动估计算法用于恢复天空的移动。虚拟摄像机捕获的天空视频需要在真实摄像机的运动下进行渲染和同步。该研究假设天空以及天空中的物体（例如，太阳、云等）位于无穷远，并用 Affine 矩阵建模它们相对于前景的运动。

skybox 模块用于天空图像的扭曲和混合。给定前景帧、预测的天空抠图、运动参数，skybox 将基于运动扭曲天空背景并将其与前景混合。skybox 还应用了重光照和重新着色技术，使混合结果在颜色和动态范围方面更加逼真。

该方法使用 ResNet-50 作为天空抠图网络的编码器（全连接层被移除）。解码器部分包括 5 个卷积上采样层（coordinate 卷积 + relu + 双线性上采样）和一个像素级预测层（coordinate + sigmoid）。该研究方法遵循 UNet [30] 的配置，并在具有相同空间大小的编码器层与解码器层之间添加残差连接。表 1 显示了该网络的详细配置：

除了前文及上图展示的处理效果以外，该研究还展示了该方法与 CycleGAN 方法之间的对比结果，具体如下图 5 所示：

图 5：该研究提出方法与 CycleGAN 的定性对比结果。

下表 2 给出了在不同天气转换场景下这两种方法的图像保真度定量对比结果。该研究提出的方法在两个定量度量指标和视觉质量上均显著优于 CycleGAN。

研究人员使用配备一块英伟达 Titan XP GPU 和英特尔 I7-9700k CPU 的台式机进行推断速度测试。对于不同输出分辨率而言，处理速度有所不同：该方法在输出分辨率为 640×320 时实现了实时处理速度 (24 fps)，在输出分辨率为 854×480 时实现了接近实时处理的速度 (15 fps)，不过仍有很大提升空间。

根据统计，天空抠图阶段需要花费相当多的时间，因此用更高效的 CNN 主干网络（如 MobileNet 或 EfficientNet）替换 ResNet-50，可以提高处理速度。

该方法也存在一些局限性。

首先，天空抠图网络仅基于白天的图像训练，因此该方法可能无法检测夜晚视频中的天空区域。

其次，当视频特定时间段没有天空像素时，或者天空中没有纹理时，该方法无法精确建模天空背景的运动。

下图 8 展示了两个失败案例：

本文作者 Zhengxia Zou 现为密歇根大学安娜堡分校的博士后研究员。他先后于 2013 年和 2018 年取得北京航空航天大学的学士和博士学位。其研究兴趣包括计算机视觉及其在遥感、自动驾驶汽车和电子游戏等领域的相关应用。

此前，机器之心报道过的一项的研究也有他的参与。

如何在Pages+文稿里抠图？

我要回帖

更多关于 pages文稿导出图片的文章

随机推荐

如何在Pages+文稿里抠图？

我要回帖

更多关于 pages文稿导出图片 的文章

随机推荐

更多关于 pages文稿导出图片的文章