Publications

(* denotes equal contribution, † denotes corresponding author)

Recent Preprints

EduAgentQG: A Multi-Agent Workflow Framework for Personalized Question Generation
Rui Jia, Min Zhang, Fengrui Liu, Bo Jiang, Kun Kuang, Zhongxiang Dai.
Preprint, 2025.
UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models
Shouang Wei, Min Zhang, Xin Lin, Bo Jiang, Kun Kuang, Zhongxiang Dai.
Preprint, 2025.
T-POP: Test-Time Personalization with Online Preference Feedback
Zikun Qu, Min Zhang†, Mingze Kong, Xiang Li, Zhiwei Shang, Zhiyong Wang, Yikun Ban, Shuang Qiu, Yao Shu, Zhongxiang Dai†.
Preprint, 2025.
FedPOB: Sample-Efficient Federated Prompt Optimization via Bandits
Pingchen Lu*, Zhi Hong*, Zhiwei Shang, Zhiyong Wang, Yikun Ban, Yao Shu, Min Zhang, Shuang Qiu, Zhongxiang Dai†.
Preprint, 2025.
Meta-Prompt Optimization for LLM-Based Sequential Decision Making
Mingze Kong, Zhiyong Wang, Yao Shu, Zhongxiang Dai†.
ICLR 2025 Workshop on Reasoning and Planning for Large Language Models.
Large Language Model-Enhanced Multi-Armed Bandits
Jiahang Sun*, Zhiyong Wang*, Runhan Yang*, Chenjun Xiao, John C.S. Lui, Zhongxiang Dai†.
ICLR 2025 Workshop on Reasoning and Planning for Large Language Models.
Active Human Feedback Collection via Neural Contextual Dueling Bandits
Arun Verma, Xiaoqiang Lin, Zhongxiang Dai, Daniela Rus, Bryan Kian Hsiang Low.
ICLR 2025, Workshop on on Bidirectional Human-AI Alignment.
ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment
Xiaoqiang Lin, Arun Verma, Zhongxiang Dai, Daniela Rus, See-Kiong Ng, Bryan Kian Hsiang Low.
Preprint, 2025.
Prompt Optimization with Human Feedback
Xiaoqiang Lin, Zhongxiang Dai†, Arun Verma, See-Kiong Ng, Patrick Jaillet and Kian Hsiang Low.
ICML 2024 Workshop on Models of Human Feedback for AI Alignment. (Selected as Oral)

Publications

Federated Linear Dueling Bandits
Xuhan Huang, Yan Hu, Zhiyan Li, Zhiyong Wang, Zhongxiang Dai†.
AAAI 2026.
Convergence Rates of Constrained Expected Improvement
Haowei Wang, Jingyi Wang, Zhongxiang Dai, Nai-Yuan Chiang, Szu Hui Ng, Cosmin G. Petra.
NeurIPS 2025 (Spotlight).
Adaptive Sample Scheduling for Direct Preference Optimization
Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang.
NeurIPS 2025.
Source Attribution for Large Language Model-Generated Data
Jingtan Wang*, Xinyang Lu*, Zitong Zhao*, Zhongxiang Dai, Chuan-Sheng Foo, See-Kiong Ng and Kian Hsiang Low.
ACL Findings 2025.
Online Clustering of Dueling Bandits
Zhiyong Wang, Jiahang Sun, Mingze Kong, Jize Xie, Qinghua Hu, John C.S. Lui, Zhongxiang Dai†.
ICML 2025.
Refining Adaptive Zeroth-Order Optimization at Ease
Yao Shu, Qixin Zhang, Kun He, Zhongxiang Dai†.
ICML 2025.
Adjusted Expected Improvement for Cumulative Regret Minimization in Noisy Bayesian Optimization
Shouri Hu, Haowei Wang, Zhongxiang Dai, Kian Hsiang Low and Szu Hui Ng.
Journal of Machine Learning Research (JMLR), 2025.
Neural Dueling Bandits: Principled Preference-Based Optimization with Non-Linear Reward Function
Arun Verma*, Zhongxiang Dai*†, Xiaoqiang Lin, Patrick Jaillet and Kian Hsiang Low.
ICLR 2025.
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars
Zhaoxuan Wu*, Xiaoqiang Lin*, Zhongxiang Dai†, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet and Kian Hsiang Low.
NeurIPS 2024.
Localized Zeroth-Order Prompt Optimization
Wenyang Hu*, Yao Shu*, Zongmin Yu, Zhaoxuan Wu, Xiaoqiang Lin, Zhongxiang Dai, See-Kiong Ng and Kian Hsiang Low.
NeurIPS 2024 (Spotlight).
Data-Centric AI in the Age of Large Language Models
Xinyi Xu, et al.
EMNLP Findings 2024.
Use Your INSTINCT: INSTruction optimization usIng Neural bandits Coupled with Transformers
Xiaoqiang Lin*, Zhaoxuan Wu*, Zhongxiang Dai†, Wenyang Hu, Yao Shu, See-Kiong Ng, Patrick Jaillet and Kian Hsiang Low.
ICML 2024.
Robustifying and Boosting Training-Free Neural Architecture Search
Zhenfeng He, Yao Shu, Zhongxiang Dai, Bryan Kian Hsiang Low.
ICLR 2024.
Quantum Bayesian Optimization
Zhongxiang Dai*, Gregory Kang Ruey Lau*, Arun Verma, Yao Shu, Kian Hsiang Low and Patrick Jaillet.
NeurIPS 2023.
Batch Bayesian Optimization For Replicable Experimental Design
Zhongxiang Dai, Quoc Phong Nguyen, Sebastian Shenghong Tay, Daisuke Urano, Richalynn Leong, Kian Hsiang Low and Patrick Jaillet.
NeurIPS 2023.
Exploiting Correlated Auxiliary Feedback in Parameterized Bandits
Arun Verma, Zhongxiang Dai, Yao Shu and Kian Hsiang Low.
NeurIPS 2023.
Training-Free Neural Active Learning with Initialization-Robustness Guarantees
Apivich Hemachandra, Zhongxiang Dai†, Jasraj Singh, See-Kiong Ng and Kian Hsiang Low.
ICML 2023.
Federated Neural Bandits
Zhongxiang Dai, Yao Shu, Arun Verma, Flint Xiaofeng Fan, Kian Hsiang Low and Patrick Jaillet.
ICLR 2023.
Zeroth-Order Optimization with Trajectory-Informed Derivative Estimation
Yao Shu*, Zhongxiang Dai*, Weicong Sng, Arun Verma, Patrick Jaillet and Kian Hsiang Low.
ICLR 2023.
Recursive Reasoning-Based Training-Time Adversarial Machine Learning
Yizhou Chen, Zhongxiang Dai, Haibin Yu, Kian Hsiang Low and Teck-Hua Ho.
Artificial Intelligence Journal, 2023.
Sample-Then-Optimize Batch Neural Thompson Sampling
Zhongxiang Dai, Yao Shu, Kian Hsiang Low and Patrick Jaillet.
NeurIPS 2022.
Unifying and Boosting Gradient-Based Training-Free Neural Architecture Search
Yao Shu, Zhongxiang Dai†, Zhaoxuan Wu and Kian Hsiang Low.
NeurIPS 2022.
Bayesian Optimization under Stochastic Delayed Feedback
Arun Verma*, Zhongxiang Dai* and Kian Hsiang Low.
ICML 2022.
On Provably Robust Meta-Bayesian Optimization
Zhongxiang Dai, Yizhou Chen, Haibin Yu, Kian Hsiang Low and Patrick Jaillet.
UAI 2022.
Neural Ensemble Search via Bayesian Sampling
Yao Shu, Yizhou Chen, Zhongxiang Dai and Kian Hsiang Low.
UAI 2022.
NASI: Label- and Data-agnostic Neural Architecture Search at Initialization
Yao Shu, Shaofeng Cai, Zhongxiang Dai, Beng Chin Ooi and Kian Hsiang Low.
ICLR 2022.
Differentially Private Federated Bayesian Optimization with Distributed Exploration
Zhongxiang Dai, Kian Hsiang Low and Patrick Jaillet.
NeurIPS 2021.
Optimizing Conditional Value-At-Risk of Black-Box Functions
Quoc Phong Nguyen, Zhongxiang Dai, Kian Hsiang Low and Patrick Jaillet.
NeurIPS 2021.
Fault-Tolerant Federated Reinforcement Learning with Theoretical Guarantee
Xiaofeng Fan, Yining Ma, Zhongxiang Dai, Wei Jing, Cheston Tan and Kian Hsiang Low.
NeurIPS 2021.
Value-at-Risk Optimization with Gaussian Processes
Quoc Phong Nguyen, Zhongxiang Dai, Kian Hsiang Low and Patrick Jaillet.
ICML 2021.
Federated Bayesian Optimization via Thompson Sampling
Zhongxiang Dai, Kian Hsiang Low and Patrick Jaillet.
NeurIPS 2020.
R2-B2: Recursive Reasoning-Based Bayesian Optimization for No-Regret Learning in Games
Zhongxiang Dai, Yizhou Chen, Kian Hsiang Low, Patrick Jaillet and Teck-Hua Ho.
ICML 2020.
Private Outsourced Bayesian Optimization
Dmitrii Kharkovskii, Zhongxiang Dai and Kian Hsiang Low.
ICML 2020.
Bayesian Optimization Meets Bayesian Optimal Stopping
Zhongxiang Dai, Haibin Yu, Kian Hsiang Low, and Patrick Jaillet.
ICML 2019.
Bayesian Optimization with Binary Auxiliary Information
Yehong Zhang, Zhongxiang Dai, and Kian Hsiang Low.
UAI 2019 (Plenary Talk).
Implicit Posterior Variational Inference for Deep Gaussian Processes
Haibin Yu*, Yizhou Chen*, Zhongxiang Dai, Kian Hsiang Low, and Patrick Jaillet.
NeurIPS 2019 (Spotlight).