Deep Learning: Difference between revisions

Deep Learning (view source)

2 bytes added , 3 September 2020

5,337

edits

@@ Line 85: / Line 85: @@
 Suppose our model is \(F(w)=y\) where \(w \in \mathbb{R}^m\) and \(y \in \mathbb{R}^n\).
 Then our tangent kernel is:
-\(K(w) = \nabla F(w) \nabla F(w)^T \in \mathbb{R}^{n \times n}\) where \(\nabla F(w) \in \mathbb{R}^{n \times m}\)
+\[K(w) = \nabla F(w) \nabla F(w)^T \in \mathbb{R}^{n \times n}\]
+where \(\nabla F(w) \in \mathbb{R}^{n \times m}\)
 ;Lemma
-If \(\lambda \min K(w) \geq \mu \implies \mu\text{-PL}\) on \(B\).
+If \(\lambda_{\min} K(w) \geq \mu \implies \mu\text{-PL}\) on \(B\).
 ==Misc==