本文中,来自清华大学、AWS AI 和北京智源人工智能研究院的研究者提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置,使得自注意力模块能够专注于相关区域,并捕获更多信息特征。 Transformer 近来在各种视觉任务上表现 ...
微软亚洲研究院升级了 Swin Transformer,新版本具有 30 亿个参数,可以训练分辨率高达 1,536×1,536 的图像,并在四个具有代表性的基准上刷新纪录。 在不久之前公布的 ICCV 2021 论文奖项中,来自微软亚洲研究院的研究者凭借论文《Swin Transformer: Hierarchical Vision ...
首个基于纯Transformer的U-Net形的医学图像分割网络,其中利用Swin Transformer构建encoder、bottleneck和decoder,表现SOTA!性能优于TransUnet、Att-UNet等,代码即将开源! 在过去的几年中,卷积神经网络(CNN)在医学图像分析中取得了里程碑式的进展。尤其是,基于U形结构和skip ...
针对6G网络中频谱资源利用率低、传统协作频谱感知(CSS)存在数据泄露风险等问题,研究人员提出了一种融合联邦学习(FL)与Swin-Transformer的智能CSS算法。该算法通过连续小波变换(CWT)提取时频联合特征,结合分布式FL框架保障数据安全,并采用Swin-Transformer实现高效 ...
本综述提出了一种创新的轻量化深度学习框架STQA(Swin Transformer-based Quality Assurance),通过整合分层空间特征学习与自适应局部-全局注意力机制,显著提升了容积旋转调强放疗(VMAT)患者特异性质量保证(PSQA)中的三维剂量预测精度。该方法采用移位窗口自 ...
在现有的基于Transformer的模型中,所有标记均采用固定尺度,这一特性并不适用于视觉应用场景。 另一差异在于图像像素的分辨率远高于文本段落中的词汇密度。诸如语义分割等众多视觉任务需要在像素级别进行密集预测,而这对高分辨率图像上的Transformer模型 ...
刚刚,计算机视觉三大顶会之一的 ICCV 2021于线上拉开序幕。 今年 ICCV收到有效投稿6236篇,1617篇被收录,接收率为25.9%,其中210篇论文为oral。就总数来看,相比ICCV 2019,接收数量增加了1800篇。 在这些论文中,中国学者几乎拿下了“半壁江山”,占比45.7%,超过第 ...
视频生成领域,又出现一位重量级开源选手。 今天,马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1。这是一个通过自回归预测视频块序列来生成视频的世界模型,生成效果自然流畅,还有多个版本可以下载。 以下是一些 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果