\1. 压缩码流
- 语法:码流中各个元素的位置关系
2025年05月15日
图源:unsplash
原文来源:arXiv
作者:Chao-Yuan Wu、Nayan Singhal、Philipp Kr"ahenbühl
「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA
我们的数字通信、媒介消费和内容创作越来越多地围绕着视频展开。我们通过这些视频分享、观察和存档我们生活的许多方面,而所有这些都是由强大的视频压缩驱动的。传统的视频压缩是通过费力的手工设计和手工优化进行的。本文提出了一种端到端深度学习编解码器的可选方案。我们的编解码器建立在一个简单的想法上:视频压缩是重复的图像插值。因此,它得益于在深度图像插值和生成方面的最新研究进展。我们的深度视频编解码器性能优于当今流行的编解码器,比如H.261、MPEG-4 Part 2,并且与H.264的性能相媲美。
2025年05月15日
生成模型是近年来受到广泛关注的无监督学习中的一类重要模型。可以将它们定义为一类模型,其目标是学习如何生成与训练数据来自同一数据集的新样本。在训练阶段,生成模型试图解决密度估计的核心任务。 在密度估计中,我们的模型学习构建一个估计——pmodel(x)——尽可能类似于不可观察的概率密度函数——pdata(x)。需要说明的是,生成模型应该能够从分布中生成新样本,而不仅仅是复制和粘贴现有样本。 一旦我们成功地训练了我们的模型,它就可以用于各种各样的应用,从各种形式的重建,如图像填充、着色和超分辨率到生成艺术品。
2025年05月15日
编者按:你是否有过图像检索的烦恼?或是难以在海量化的图像中准确地找到所需图像,或是在基于文本的检索中得到差强人意的结果。对于这个难题,微软亚洲研究院和微软云计算与人工智能事业部的研究人员对轻量化视觉模型进行了深入研究,并提出了一系列视觉预训练模型的设计和压缩方法,实现了视觉 Transformer 的轻量化部署需求。目前该方法和模型已成功应用于微软必应搜索引擎,实现了百亿图片的精准、快速推理和检索。本文将深入讲解轻量化视觉预训练模型的发展、关键技术、应用和潜力,以及未来的机遇和挑战,希望大家可以更好地了解轻量化视觉预训练领域,共同推进相关技术的发展。
2025年05月15日
在计算机视觉领域,特征提取是一种常见的技术,用于从图像或视频中提取出有用的信息。以下全文通过介绍特征提取常用的算法进行介绍:
是指从原始数据中提取出有用的特征,以便于进行后续的处理和分析,特征提取一般包含特征点检测和描述子计算两个过程。
特征点检测
2025年05月15日
UAV爱上了VIO
资料来源:《面向无人机的视觉-惯性里程计算法研究》
近年来随着计算机和人工智能的发展,涌现出了一大批高新产业,例如智能机器人、自动驾驶、AR、VR,无人机…这些产品的出现不仅在一定程度上减轻了人们的负担,同时又可以代替人类去做那些比较危险的工作,不断提高人们生活的智能性。
扫地机器人的出现极大的便利了人们日常生活,然而早期的扫地机器人智能实现室内的简单清扫,在房间内随机游走,经常出现碰壁现象。如今随着定位与构图技术的不断发展及其在扫地机器人中的应用,目前的扫地机器人已变得非常智能,可通过传感器对室内的环境进行扫描建图,并实现自主规划式清扫,还能做到自主回充断点续扫等功能。
2025年05月15日
一、首先说明几个情况:
1、完成双目标定必须是自个拿棋盘图摆拍,网上涉及用opencv自带的标定图完成双目标定仅仅是提供个参考流程。我原来还以为用自带的图标定就行,但想不通的是咱们实际摆放的双目摄像头和人家当时摆放的肯定不一样,那用人家的标定图怎么能反应自己摄像头的实际情况;后来问了大神,才知道用opencv自带的标定图(或者说别人提供的图)进行标定,这是完全没有意义的。