Wie können Sie die Einzelwertzerlegung zu Nicht-Spezialisten Mathematik Stapelaustausch erklären
Ein großer Teil der linearen Algebra ist etwa lineare Operatoren. das heißt, lineare Transformationen von einem Raum auf sich. Ein typisches Ergebnis ist, dass durch eine geeignete Grundlage für die Wahl des Raum, kann der Bediener in einfacher Matrixform ausgedrückt werden, beispielsweise, diagonal. Allerdings gilt dies nicht für alle Betreiber.
Diese Antwort versucht, eine einfache algebraische Intuition zu geben. Angenommen, $ A $ ist ein $ m \ times n $ reelle Matrix. Sei $ A = U \ Sigma V ^ T $ der SVD von $ A $ sein. Nehmen wir an, dass der Rang von $ A $ auf $ r gleich ist. $ Dann werden die ersten $ r $ singulären Werte werden nicht Null, während die übrigen Einzelwerte Null.
Ein großer Einzelwert $ \ sigma_k $ zeigt an, dass der Beitrag des entsprechenden u_k v_k Transformation $ ^ T $ groß ist und ein kleiner singulärer Wert zeigt an, dass der entsprechende Beitrag zur Wirkung von $ A $ klein ist. Als Anwendung dieser Intuition, gibt es Fälle, in denen z.B. $ A $ ist eine volle Rang quadratische Matrix, damit er keine Null Singulärwerte hat jedoch eine Schwelle gewählt wird und alle Terme in der Summe $ A = \ sum_ ^ r \ sigma_i u_i v_i ^ T $ zu singulären Werten entsprechen, kleiner als diese Schwellenwert werden verworfen. Auf diese Weise wird $ A $ durch eine einfachere Matrix $ \ tilde $ approximiert, dessen Verhalten ist für praktische Zwecke, im wesentlichen die gleiche wie die der ursprünglichen Matrix.
Ax = $ \ sum_ ^ r (\ sigma_i \ langle v_i, x \ rangle) u_i $: Es könnte auch mit Hilfe der obigen Formel hilft die Wirkung von $ A $ auf einem Vektor x $ $ sichtbar zu machen. Beachten Sie, dass das Bild von $ $ x ist eine Linearkombination der Vektoren $ $ u_i und die Koeffizienten hängen von sowohl die Größe der entsprechenden Singulärwerte sowie die Richtungen der Vektoren $ $ v_i mit Bezug auf $ x $. wenn $ x $ für $ all orthogonal zu dem $ v_i $ ist $ i, so zum Beispiel, dass $ \ sigma_i \ neq $ 0, dann $ Ax = 0 $. Auf der anderen Seite, wenn $ x = v_k $ für rund $ k $, so dass $ \ sigma_k \ neq $ 0, dann $ Av_k = \ sigma_k u_k $.
Wenn Sie möchten, zu erklären, was intuitiv der SVD bedeutet. dann denke ich, der beste Weg, die Domäne und codomain der linearen Transformation Orthogonalisierung jeweils denken der singulären Vektoren $ u, v $ als Grundlage zu erklären ist, so dass es Linien mit, wie die Matrix $ A $ „achieves“ sein Rang. Der größte Einzelwert, $ \ sigma_1 $, entspricht dem optimalen Weg, um das Verhalten von $ A $ durch einen Rang-1-Matrix anzunähern, und genau dieses Verhalten ist gegeben durch $ AV_1 = \ sigma_1 u_1 $. Und falls Sie $ A $ annähern wollen von einem Rang-2-Matrix, dann ist das zugrunde liegende Verhalten von $$ A gegeben (c_1 v_1 + c_2 v_2) = c_1 \ sigma_1 u_1 + c_2 \ sigma_2 u_2. $$ Im Allgemeinen die $ k $ größten Einzelwerte mit und entsprechenden singulären Vektoren gibt Ihnen die Möglichkeit, das Verhalten von $ A $ nur einen Rang $ k $ Operator am besten zu erklären. Darüber hinaus informiert Sie die Größe der Einzelwerte wie $ A $ Längen entlang verschiedenen Richtungen „erweitert“.
Der beste Weg, SVD einem Laien zu erklären, ist, dass es einen Weg gibt, Informationen aus mehreren (wahrscheinlich), der Kombination von korrelierten Vektoren und bilden Basisvektoren, die in höherdimensionalen Raum orthogonal sein, sind garantiert und den größten Teil der Varianz in den Daten erläutern .
Überprüfen Sie meine Antwort darauf hin, dass Stackoverflow zu erklären versucht, was Dimensionsreduktion bedeutet für den Laien.
Mein Laien Erklärung ist es, die umgekehrte Abbildung in zwei Dimensionen zu berücksichtigen:
Betrachten wir alle 2 unabhängige Vektoren in einer Ebene liegen. beide beginnend am Ursprung. Drehen, um die Vektoren, die durch einen beliebigen Winkel (a), so dass die Vektoren, oberhalb und unterhalb der x-Achse liegen, und vor allem so, dass der Vektor mit dem größeren Wert x einen niedrigen absoluten y-Wert als der andere hat. Die zwei Punkte liegen auf der Grenze einer Ellipse auf den Ursprung zentriert.
Skalieren der Ellipse (und 2 Vektoren) zu einem Einheitskreis und überprüfen den Winkel zwischen den beiden (Einheit) Vektoren.
Variieren die Winkel a der Rotation und die Skalierung wiederholen, bis die skalierte Einheitsvektoren orthogonal sind.
Schließlich drehen sich die Einheitsvektoren durch den Winkel b, bis der entsprechen i und j.
a, b und definieren die Skalierungsparameter den SVD (eigentlich die invers).