Constitutional AI: Harmlessness from AI Feedback

📄 Paper

Bai, Yuntao, Kadavath, Saurav, Kundu, Sandipan, Askell, Amanda, Kernion, Jackson, Jones, Andy, Chen, Anna, Goldie, Anna, Mirhoseini, Azalia, McKinnon, Cameron, Chen, Carol, Olsson, Catherine, Olah, Christopher, Hernandez, Danny, Drain, Dawn, Ganguli, Deep, Li, Dustin, Tran-Johnson, Eli, Perez, Ethan, Kerr, Jamie, Mueller, Jared, Ladish, Jeffrey, Landau, Joshua, Ndousse, Kamal, Lukosuite, Kamile, Lovitt, Liane, Sellitto, Michael, Elhage, Nelson, Schiefer, Nicholas, Mercado, Noemi, DasSarma, Nova, Lasenby, Robert, Larson, Robin, Ringer, Sam, Johnston, Scott, Kravec, Shauna, Showk, Sheer El, Fort, Stanislav, Lanham, Tamera, Telleen-Lawton, Timothy, Conerly, Tom, Henighan, Tom, Hume, Tristan, Bowman, Samuel R., Hatfield-Dodds, Zac, Mann, Ben, Amodei, Dario, Joseph, Nicholas, McCandlish, Sam, Brown, Tom, Kaplan, Jared · 2022

View Original ↗

Cited By (19 articles)

Large Language Models
Long-Horizon Autonomous Tasks
Accident Risk Cruxes
Large Language Models
Capability Threshold Model
Compounding Risks Analysis Model
Corrigibility Failure Pathways
Intervention Effectiveness Matrix
Power-Seeking Emergence Conditions Model
Anthropic
Dario Amodei
AI Alignment
Anthropic Core Views
Constitutional AI
Technical AI Safety Research
AI Evaluation
Lock-in
AI Proliferation
Optimistic Alignment Worldview

← Back to Resources