MReaL Lab

2025 Publication

Nautilus: Locality-aware Autoencoder for Scalable Mesh Generation

Yuxuan Wang, Xuanyu Yi, Haohan Weng, Qingshan Xu, xiaokang wei, Xianghui Yang, Chunchao Guo, Long Chen, Hanwang Zhang

International Conference on Computer Vision. ICCV 2025

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

Jingjing Jiang, Chao Ma, Xurui Song, Hanwang Zhang, Jun Luo

International Conference on Computer Vision. ICCV 2025

Dynamic Multimodal Prototype Learning in Vision-Language Models

Xingyu Zhu, Shuo Wang, Beier Zhu, Miaoge Li, Yunfan Li, Junfeng Fang, Zhicai Wang, Dongsheng Wang, Hanwang Zhang

International Conference on Computer Vision. ICCV 2025

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

Kesen Zhao, Beier Zhu, Qianru Sun, Hanwang Zhang

International Conference on Computer Vision. ICCV 2025

Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models

Beier Zhu, Ruoyu Wang, Tong Zhao, Hanwang Zhang, Chi Zhang

International Conference on Computer Vision. ICCV 2025

Gamba: Marry Gaussian Splatting with Mamba for Single-View 3D Reconstruction

Qiuhong Shen, Zike Wu, Xuanyu Yi, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence

3D Question Answering via only 2D Vision-Language Models

Fengyun Wang, Sicheng Yu, Jiawei Wu, Jinhui Tang, Hanwang Zhang, Qianru Sun

International Conference on Machine Learning. ICML 2025

VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Haojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei

International Conference on Machine Learning. ICML 2025

On Path to Multimodal Generalist: Levels and Benchmarks

Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Weiming Wu, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Shuicheng Yan, Hanwang Zhang

International Conference on Machine Learning. ICML 2025 Spotlight

Diffusion Model with Causal Generation and Cache Sharing

Kaifeng Gao, Jiaxin Shi, Hanwang Zhang, Chunping Wang, Jun Xiao, Long Chen

International Conference on Machine Learning. ICML 2025

Learning 4D Panoptic Scene Graph Generation from Rich 2D Visual Scene

Shengqiong Wu, Hao Fei, Jingkang Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Tat-seng Chua

The IEEE/CVF Computer Vision and Pattern Recognition Conference. CVPR 2025 Highlight

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

Kaihang Pan, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang

The IEEE/CVF Computer Vision and Pattern Recognition Conference. CVPR 2025 Oral

Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness

Beier Zhu, Jiequan Cui, Hanwang Zhang, Chi Zhang

The IEEE/CVF Computer Vision and Pattern Recognition Conference. CVPR 2025 Highlight

CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction

Yuan Zhou, Qingshan Xu, Jiequan Cui, Junbao Zhou, Jing Zhang, Richang Hong, Hanwang Zhang

The IEEE/CVF Computer Vision and Pattern Recognition Conference. CVPR 2025 Highlight

AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea

Qifan Yu, Wei Chow, Zhongqi Yue, Kaihang Pan, Yang Wu, Xiaoyang Wan, Juncheng Li, Siliang Tang, Hanwang Zhang, Yueting Zhuang

The IEEE/CVF Computer Vision and Pattern Recognition Conference. CVPR 2025 Oral

Towards Semantic Equivalence of Tokenization in Multimodal LLM

Shengqiong Wu, Hao Fei, Xiangtai Li, Jiayi Ji, Hanwang Zhang, Tat-Seng Chua, Shuicheng YAN

International Conference on Learning Representations. ICLR 2025

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning

Xu Zhang,Jin Yuan,Hanwang Zhang,Guojin Zhong,Yongsheng Zang,Jiacheng Lin,Zhiyong Li

The AAAI Conference on Artificial Intelligence. AAAI 2025

2024 Publication

Unified Generative and Discriminative Training for Multi-modal Large Language Models

Wei Chow, Juncheng Li, Kaihang Pan, Qifan Yu, Hao Fei, Zhiqi Ge, Shuaiyang, Siliang Tang, Hanwang Zhang, Qianru Sun

Conference on Neural Information Processing Systems. NeurIPS 2024

Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

Hao Fei, Shengqiong Wu, Hanwang Zhang, Tat-Seng Chua, Shuicheng YAN

Conference on Neural Information Processing Systems. NeurIPS 2024

MVGamba: Unify 3D Content Generation as State Space Sequence Modeling

Xuanyu Yi, Zike Wu, Qiuhong Shen, Qingshan Xu, Pan Zhou, Joo Hwee Lim, Shuicheng YAN, Xinchao Wang, Hanwang Zhang

Conference on Neural Information Processing Systems. NeurIPS 2024

Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration

Kaihang Pan, Zhaoyu Fan, Juncheng Li, Qifan Yu, Hao Fei, Siliang Tang, Richang Hong, Hanwang Zhang, Qianru Sun

Conference on Neural Information Processing Systems. NeurIPS 2024 [spotlight]

Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting

Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang

Conference on Neural Information Processing Systems. NeurIPS 2024 [spotlight]

Action Imitation in Common Action Space for Customized Action Image Synthesis

Wang Lin, Jingyuan Chen, Jiaxin Shi, Zirun Guo, Yichen Zhu, Zehan Wang, Tao Jin, Zhou Zhao, Fei Wu, Shuicheng YAN, Hanwang Zhang

Conference on Neural Information Processing Systems. NeurIPS 2024

Robust Fine-tuning of Zero-shot Models via Variance Reduction

Beier Zhu, Jiequan Cui, Hanwang Zhang

Conference on Neural Information Processing Systems. NeurIPS 2024

Decoupled Kullback-Leibler Divergence Loss

Jiequan Cui, Zhuotao Tian, Zhisheng Zhong, XIAOJUAN QI, Bei Yu, Hanwang Zhang

Conference on Neural Information Processing Systems. NeurIPS 2024

Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models

Xu Yang, Yingzhe Peng, Haoxuan Ma, Shuo Xu, Chi Zhang, Yucheng Han, Hanwang Zhang

Conference on Neural Information Processing Systems. NeurIPS 2024

Rethinking and Improving Visual Prompt Selection for In-Context Learning Segmentation Framework

Wei Suo, Lanqing Lai, MengYang Sun, Hanwang Zhang, Peng Wang, Yanning Zhang

European Conference on Computer Vision. ECCV 2024

[paper][code]

Instruction Tuning-free Visual Token Complement for Multimodal LLMs

Dongsheng Wang, Jiequan Cui, Miaoge Li, Wang Lin, Bo Chen, Hanwang Zhang

European Conference on Computer Vision. ECCV 2024

[paper]

View-Consistent 3D Editing with Gaussian Splatting

Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang

European Conference on Computer Vision. ECCV 2024

[paper]

Few-shot NeRF by Adaptive Rendering Loss Regularization

Qingshan Xu, Xuanyu Yi, Jianyao Xu, Wenbing Tao, Yew-Soon Ong, Hanwang Zhang

European Conference on Computer Vision. ECCV 2024

Auto-Encoding Morph-Tokens for Multimodal LLM

Kaihang Pan, Siliang Tang, Juncheng Li, Zhaoyu Fan, Wei Chow, Shuicheng YAN, Tat-Seng Chua, Yueting Zhuang, Hanwang Zhang

The International Conference on Machine Learning. ICML Spotlight 2024

[paper][code]

Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition

Hao Fei, Shengqiong Wu, Wei Ji, Hanwang Zhang, Meishan Zhang, Mong-Li Lee, Wynne Hsu

The International Conference on Machine Learning. ICML Oral 2024

[paper][code]

Non-confusing Generation of Customized Concepts in Diffusion Models

Wang Lin, Jingyuan Chen, Jiaxin Shi, Yichen Zhu, Chen Liang, Junzhong Miao, Tao Jin, Zhou Zhao, Fei Wu, Shuicheng YAN, Hanwang Zhang

The International Conference on Machine Learning. ICML 2024

[paper][code]

NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation

Lin Li, Jun Xiao, Hanrong Shi, Hanwang Zhang, Yi Yang, Wei Liu, and Long Chen

IEEE Trans. on Pattern Analysis and Machine Intelligence. 2024

[paper][code]

DisCo: Disentangled Control for Realistic Human Dance Generation

Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang