John Schulman

TalkRL: The Reinforcement Learning Podcast

Inhoud geleverd door Robin Ranjit Singh Chauhan. Alle podcastinhoud, inclusief afleveringen, afbeeldingen en podcastbeschrijvingen, wordt rechtstreeks geüpload en geleverd door Robin Ranjit Singh Chauhan of hun podcastplatformpartner. Als u denkt dat iemand uw auteursrechtelijk beschermde werk zonder uw toestemming gebruikt, kunt u het hier beschreven proces https://nl.player.fm/legal volgen.

2y ago 44:21

MP3•Thuis aflevering

John Schulman is a cofounder of OpenAI, and currently a researcher and engineer at OpenAI.

Featured References

WebGPT: Browser-assisted question-answering with human feedback
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman

Training language models to follow instructions with human feedback
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

Additional References

Our approach to alignment research, OpenAI 2022
Training Verifiers to Solve Math Word Problems, Cobbe et al 2021
UC Berkeley Deep RL Bootcamp Lecture 6: Nuts and Bolts of Deep RL Experimentation, John Schulman 2017
Proximal Policy Optimization Algorithms, Schulman 2017
Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs, Schulman 2016

61 afleveringen

#Reinforcement Learning #Machine Learning #Robin Ranjit Singh Chauhan #Artificial Intelligence #Tech

John Schulman

TalkRL: The Reinforcement Learning Podcast

85 subscribers

published 2y ago

MP3•Thuis aflevering

John Schulman is a cofounder of OpenAI, and currently a researcher and engineer at OpenAI.

Featured References

Additional References

Our approach to alignment research, OpenAI 2022
Training Verifiers to Solve Math Word Problems, Cobbe et al 2021
UC Berkeley Deep RL Bootcamp Lecture 6: Nuts and Bolts of Deep RL Experimentation, John Schulman 2017
Proximal Policy Optimization Algorithms, Schulman 2017
Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs, Schulman 2016

61 afleveringen

#Reinforcement Learning #Machine Learning #Robin Ranjit Singh Chauhan #Artificial Intelligence #Tech

Alle afleveringen

Welkom op Player FM!

Player FM scant het web op podcasts van hoge kwaliteit waarvan u nu kunt genieten. Het is de beste podcast-app en werkt op Android, iPhone en internet. Aanmelden om abonnementen op verschillende apparaten te synchroniseren.

Luister naar 500+ onderwerpen

Overeenkomstig met TalkRL: The Reinforcement Learning Podcast

Podcasts die het beluisteren waard zijn

TalkRL: The Reinforcement Learning Podcast « » John Schulman

John Schulman

Podcasts die het beluisteren waard zijn

Welkom op Player FM!

Overeenkomstig met TalkRL: The Reinforcement Learning Podcast

Korte handleiding

TalkRL: The Reinforcement Learning Podcast « »
John Schulman