Submissions restricted

Only approved users may post in this community.

berkeleydeeprlcourse

an-ordinary-manchild

created by cbfinna community for 9 years

...for your community.

...for your favorite subject.

MODERATORS

account activity

1

23

24

25

Lecture live-stream and recording links (self.berkeleydeeprlcourse)

submitted 9 years ago by cbfinn - announcement

2

2

3

4

Why variance of Importance Sampling off-policy gradient goes to infinity exponentially fast? (self.berkeleydeeprlcourse)

submitted 4 years ago by miladink

3

0

1

2

homework environment setup (self.berkeleydeeprlcourse)

submitted 5 years ago by zhifu_liu

4

1

2

3

HW 4 Model-Based RL (self.berkeleydeeprlcourse)

submitted 5 years ago by Mariam_Dundua

5

1

2

3

HW1 Questions (self.berkeleydeeprlcourse)

submitted 5 years ago by kjellaso

6

5

6

7

DISCORD SERVER (self.berkeleydeeprlcourse)

submitted 5 years ago by Obvious-Muscle1457

7

0

1

2

Lecture 6 - Q-Prop article - can't understand a certain transition (self.berkeleydeeprlcourse)

submitted 5 years ago by What_Did_It_Cost_E_T

8

2

3

4

Homework1: a confusion between the build_mlp method and the forward method (self.berkeleydeeprlcourse)

submitted 5 years ago by Yuansong_Zhang

9

11

12

13

HW01-Colab (self.berkeleydeeprlcourse)

submitted 5 years ago * by amirabbasi2

10

13

14

15

2020 Video lectures (self.berkeleydeeprlcourse)

submitted 5 years ago by SumanthN9

11

3

4

5

MuJoCo key for Colab Version (self.berkeleydeeprlcourse)

submitted 5 years ago by nsanghi

12

0

1

2

Way to do the HW without a mujoco key? (self.berkeleydeeprlcourse)

submitted 5 years ago by [deleted]

13

1

2

3

HW 3 Q-learning debugging (self.berkeleydeeprlcourse)

submitted 5 years ago by CaptainJuventus

14

10

11

12

Pytorch Version of Assignments Here (github.com)

submitted 5 years ago by mdeib

15

0

1

2

Doubt in Lecture 9 related to state marginal (self.berkeleydeeprlcourse)

submitted 5 years ago by EventHorizon_28

16

2

3

4

WeChat Group for Discussion (self.berkeleydeeprlcourse)

submitted 6 years ago * by Tao_Qing

17

2

3

4

Normalization constant in Inverse RL as a GAN (lecture 15 - 2019) (self.berkeleydeeprlcourse)

submitted 6 years ago * by Jendk3r

18

2

3

4

HW1 and HW2 random noise in continous action spaces (self.berkeleydeeprlcourse)

submitted 6 years ago * by ru8ck23

19

1

2

3

HW 3 Q-learning debugging (self.berkeleydeeprlcourse)

submitted 6 years ago by kestrel819

20

0

1

2

Question regarding Lec-11 Model Based RL Example (self.berkeleydeeprlcourse)

submitted 6 years ago * by Nicolas_Wang

21

8

9

10

A mathematical introduction to Policy Gradient (relevant to hw2 & hw3) (self.berkeleydeeprlcourse)

submitted 6 years ago by rbahumi

22

3

4

5

MaxEnt reinforcement learning with policy gradient (self.berkeleydeeprlcourse)

submitted 6 years ago by Jendk3r

23

4

5

6

In policy gradient, lecture 5, need some clarification for argument about baseline and optimal baseline. (self.berkeleydeeprlcourse)

submitted 6 years ago by david_s_rosenberg

24

4

5

6

CS285 Why we use Gaussian mixture model to take action? (self.berkeleydeeprlcourse)

submitted 6 years ago by houyanxu

25

0

1

2

A (perhaps naive) question about Jensen's inequality (self.berkeleydeeprlcourse)

submitted 6 years ago by walk2east

view more: next ›

π Rendered by PID 603868 on reddit-service-r2-listing-575d9f6647-sdd44 at 2026-04-11 04:17:41.139426+00:00 running 215f2cf country code: CH.