Deep Learning: Difference between revisions

Deep Learning (view source)

203 bytes added , 10 September 2020

5,337

edits

@@ Line 223: / Line 223: @@
 GD converges even though our model does not go to a linear model.
-==Take-away==
+===Take-away===
 Over-parameterization does not lead to linearization.
 Over-parameterization leads to good conditioning which leads to PL and convergence of GD/SGD.
@@ Line 229: / Line 229: @@
 Other papers:
 * Simon Du ''et al.<ref name="du2019gradient"></ref>
+===Start of Lecture 4 (September 10)===
+This lecture is about Soudry ''et al.''<ref name="soudry2018implicit"></ref>.
+Setup:
+* Binary classification
+* Data is linearly separable
+* No bias term (b=0)
 ==Misc==