Nathaniel Li

100

2022202320241 57 98

Alexander PanUC BerkeleyAdresse e-mail validée de berkeley.edu
Andy ZouPhD Student, Carnegie Mellon UniversityAdresse e-mail validée de andrew.cmu.edu
Dan HendrycksDirector of the Center for AI SafetyAdresse e-mail validée de berkeley.edu
Steven BasartPhD, University of ChicagoAdresse e-mail validée de ttic.edu
Mantas MazeikaUniversity of Illinois Urbana-ChampaignAdresse e-mail validée de illinois.edu
Zifan WangCarnegie Mellon UniversityAdresse e-mail validée de andrew.cmu.edu

Nathaniel Li

Adresse e-mail validée de berkeley.edu - Page d'accueil


Titre Trier par citations Trier par année Trier par titre	Citée par Citée par	Année
Representation engineering: A top-down approach to ai transparency A Zou, L Phan, S Chen, J Campbell, P Guo, R Ren, A Pan, X Yin, ... arXiv preprint arXiv:2310.01405, 2023	82	2023
Do the rewards justify the means? measuring trade-offs between rewards and ethical behavior in the machiavelli benchmark A Pan, JS Chan, A Zou, N Li, S Basart, T Woodside, H Zhang, S Emmons, ... International Conference on Machine Learning, 26837-26867, 2023	68	2023
The wmdp benchmark: Measuring and reducing malicious use with unlearning N Li, A Pan, A Gopal, S Yue, D Berrios, A Gatti, JD Li, AK Dombrowski, ... arXiv preprint arXiv:2403.03218, 2024	5	2024
Harmbench: A standardized evaluation framework for automated red teaming and robust refusal M Mazeika, L Phan, X Yin, A Zou, Z Wang, N Mu, E Sakhaee, N Li, ... arXiv preprint arXiv:2402.04249, 2024	4	2024

Le système ne peut pas réaliser cette opération maintenant. Veuillez réessayer plus tard.

Articles 1–4

Nombre de citations par an