Publications

Faculty

Research areas

Artificial and Augmented Intelligence
Computing Theory
Data Science
Interactive Computing
Networked and Autonomous Systems
Secure Computing
Software Design
Visual Computing

Years

2025
2024
2023
2022
2021
2020
2019
2018
2017 and earlier

518 result(s)

Coarse-to-Fine Text-to-Music Latent Diffusion

Lanzendörfer L.A., Lu T., Perraudin N., Herremans D., Wattenhofer R., 2025, Proceedings of ICASSP, India

An exploration of controllability in symbolic music infilling

R. Guo, D. Herremans., 2025, IEEE Access, 13, 54873-54891, https://ieeexplore.ieee.org/document/10938538

PRESENT: Zero-Shot Text-to-Prosody Control

Lam P., Zhang H., Chen N.F, Sisman B., Herremans D., 2025, IEEE Signal Processing Letters, 32, 776-780, https://ieeexplore.ieee.org/document/10838710

Text2midi: Generating Symbolic Music from Captions

Bhandari K., Roy A., Wang K., Puri G., Colton S., Herremans D., 2025, Proceedings of AAAI, Philadelphia, https://www.arxiv.org/abs/2412.16526

Coarse-to-Fine Text-to-Music Latent Diffusion

Lanzendörfer L.A., Lu T., Perraudin N., Herremans D., Wattenhofer R., 2024, Audio Imagination: NeurIPS 2024 Workshop, Vancouver

DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech

Melechovsky J., Mehrish A., Sisman B., Herremans D., 2024, Audio Imagination: NeurIPS 2024 Workshop, Vancouver, https://arxiv.org/abs/2410.13342

Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training

Melechovsky J., Mehrish A., Sisman B., Herremans D., 2024, Proceedings of IEEE Tencon, Singapore, https://arxiv.org/abs/2406.01018

Accented Text-to-Speech Synthesis with a Conditional Variational Autoencoder

Melechovsky J., Mehrish A., Sisman B., Herremans D., 2024, Proceedings of IEEE Tencon, Singapore, https://arxiv.org/abs/2211.03316

DisfluencySpeech — Single-Speaker Conversational Speech Dataset with Paralanguage

Wang K., Herremans D., 2024, Proceedings of IEEE Tencon, Singapore, https://arxiv.org/abs/2406.08820

Mustango: Toward Controllable Text-to-Music Generation

Melechovsky, J., Guo, Z., Ghosal, D., Majumder, N., Herremans, D., Poria, S., 2024, Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), Mexico City, Mexico, https://arxiv.org/abs/2311.08355