美团技术沙龙论文分享会：CVPR 2024 美团视觉专场_发现精彩城市生活-活动发布及直播平台！！

Event DetailsHide...More...

| 关于PPT和回放：

1. 活动结束后，PPT和回放视频将会上传至「美团技术团队」小程序，可扫码查看~

2. B站回放视频可点击：https://b23.tv/XEm1VvF

报名成功后添加“小助手”微信进群

微信图片_20240626101008.jpg

| 关于美团技术沙龙

活动由清华大学-美团数字生活联合研究院和深圳市美团机器人研究院联合出品，美团技术团队和美团科协主办。

技术沙龙论文分享会将精选美团在不同领域学术会议上发表的论文，邀请作者分享研究成果，期待与大家交流经验，共同促进技术前沿的探索。

本期活动为CVPR2024视觉专场。

同时为了方便交流，大家可以提前提出问题，我们转给论文作者们解答，问卷地址在这：https://wenjuan.meituan.com/m/survey/5355483
论文下载可以在【美团技术团队】公众号查看

（点击以上标颜色区域即可跳转）

晓明.png

/出品人/

Xiaoming Wei，美团研究员

致力于美团视觉AI技术能力建设并主导了上百次应用落地，在视觉感知、内容理解、视觉生成等多个分支领域有丰富经验，在TPAMI、CVPR、ICLR等顶级会议和期刊发表论文30余篇，曾多次获得省部级科技进步奖项。

| 日程安排

微信图片_20240614101621.jpg

| 分享介绍

Qi Yang，中国科学院大学在读博士

本科就读于电子科技大学自动化工程学院；现在中科院自动化所攻读博士学位。

Cooperation Does Matter:Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

合作更重要：探索视听分割中的多阶双边关系

论文简介：视听分割（AVS）任务旨在将视频中发出声音的对象进行分割。该任务首次要求实现基于音频的像素级场景理解，带来了巨大的挑战。

本论文中，我们提出了一种名为COMBO的创新的音频-视觉Transformer框架，该框架通过多阶双边关系协作（COMBO, COoperation of Multi-order Bilateral relatiOns）实现。COMBO首次探索了AVS中的三种双边纠缠：像素纠缠、模态纠缠和时间纠缠。针对像素纠缠，我们采用了Siam-Encoder模块（SEM），利用先验知识从基础模型中提取更精确的视觉特征。对于模态纠缠，我们设计了双边融合模块（BFM），使COMBO能够双向对齐视觉和听觉信号。至于时间纠缠，我们根据时间的内在规则引入了创新的自适应帧间一致性损失。

在AVSBench-object和AVSBench-semantic数据集上的广泛实验和消融研究显示，COMBO超越了以往的最先进方法。

---------------------------------------

段晨.png

Chen Duan，美团工程师

主要研究方向为文字检测，端到端文字识别。

ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting

ODM：一种用于场景文本检测和识别的文本-图像对齐的预训练方法

论文简介：近年来，文本-图像联合预训练技术在各种任务中展现出了令人期待的结果，然而，在光学字符识别（OCR）任务中，将文本实例与图像中相应的文本区域对齐是一个挑战。本文提出了一种新的预训练方法，称为OCR-Text Destylization Modeling（ODM），它可以将图像中不同风格的文本转换为基于文本提示的统一风格文本，更好地对齐文本提示和图像中OCR文本，并使预训练模型适应场景文本检测和端到端识别任务中复杂多样的风格。此外，ODM允许更多未标记的数据参与预训练，降低了数据标注成本。

---------------------------------------

鸿伟.png

Hongwei Zheng，上海交通大学在读硕士

本科和硕士期间均就读上海交通大学信息工程学院

BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning

BEM：一种用于长尾半监督学习的类别均衡且基于熵的数据混合方法

论文简介：在长尾半监督学习（LTSSL）中，数据混合方法对于解决类别不平衡至关重要，但现有研究未充分探讨其应用。LTSSL方法通常集中于数据量重新平衡，忽略了类别不确定性，这同样影响类别平衡。例如，数据丰富的类别可能因特征模糊而具有高不确定性。本文提出一种新方法：平衡和基于熵的混合（BEM），它通过类别平衡混合池和基于熵的采样策略，重新平衡数据量和不确定性的类别分布。BEM首次将数据混合应用于LTSSL，补充现有方法。实验显示，BEM显著提升LTSSL框架性能，在多个基准测试中达到先进水平。

---------------------------------------

郭颖.png

Ying Guo，美团工程师

主要研究方向为人像视频可控生成，Deepfake检测和深度学习对抗攻防。

CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation

定制化听者：文本引导的响应式交互，用于实现用户友好的听者头部生成

论文简介：近年来，数字人生成技术通过模拟真实speaker和listener的表情和肢体语言，来创造生动和更具沉浸感的的虚拟对话交互场景。然而，现有listener生成中，用户只能通过简单情绪标签控制listener属性。本文中，我们提出CustomListener，用户可以使用任意文本自定义listener属性，模型结合文本属性以及speaker的讲话内容/语音/动作，生成合理且逼真的listener反应。基于ChatGPT，我们首先依据用户定义文本和speaker讲话内容，得到指导listener动作的静态文本先验。为实现speaker-listener行为的协调性，SDP模块将静态文本先验转换为包含listener动作完成节奏和幅度信息的动态肖像token。为实现长视频生成的连贯性，PGM生成运动先验来保持listener属性的片段间一致性，并基于以运动先验和动态肖像token为条件的diffusion结构，最终实现听者的可控生成。

| 报名方式

点击本页面报名，美团同学无需报名，内部大象会有通知~

往期活动PPT及视频干货攻略

美团技术沙龙已举办了80多场，吸引了10万多工程师报名参会，覆盖前端、后台、系统、算法、测试、运维等技术领域，往期PPT及视频资料已整理，欢迎关注美团技术团队公众号（meituantech），通过【菜单栏】下的【技术沙龙】进行查看。