William Yang

I am a 5th-year PhD Computer Science student in the Princeton Visual AI Lab advised by Prof. Olga Russakovsky. Previously, I completed my undergraduate studies at Carnegie Mellon University, where I was advised by Prof. Leila Wehbe and Prof. Robert F. Murphy.

My research focuses on understanding, curating, and generating datasets to enable more efficient training of machine learning models. I am especially interested in how we can use large pre-trained models to create synthetic data that unlocks new capabilities in downstream tasks. I am also interested in the properties of datasets that give rise to certain model abilities and in the kinds of data that trigger failures.

Email / Twitter / LinkedIn / Github

Selected Publications

Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification
William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky
arXiv, 2025
arXiv / code

The Impact of Coreset Selection on Spurious Correlations and Group Robustness
Amaya Dharmasiri, William Yang, Polina Kirichenko, Lydia Liu, Olga Russakovsky
NeurIPS Datasets and Benchmarks, 2025
arXiv / code

What is Dataset Distillation Learning?
William Yang, Ye Zhu, Zhiwei Deng, Olga Russakovsky
ICML, 2024
arXiv / code

ImageNet-OOD: Deciphering Modern Out-of-Distribution Detection Algorithms
William Yang*, Byron Zhang*, Olga Russakovsky
ICLR, 2024
arXiv / code

Source code taken from Jon Barron's lovely website.