In matematica, in particolare nell'ambito dell'algebra lineare e dell'analisi funzionale, per una data matrice hermitiana
e un vettore non nullo
, il quoziente di Rayleigh è il numero reale:
![{\displaystyle R(A,x):={x^{\dagger }Ax \over x^{\dagger }x}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d97286545a053fc6c2a11a3b5fdbf22f857b3cb8)
dove
indica il vettore trasposto coniugato di
. Anche se definito tramite quantità complesse, il quoziente di Rayleigh è sempre reale, essendo
una forma hermitiana ed essendo
, dove
indica la norma euclidea. Come verifica, è sufficiente porre
e osservare che, essendo
, si ha:
![{\displaystyle \alpha ^{\dagger }=x^{\dagger }A^{\dagger }x=x^{\dagger }Ax=\alpha }](https://wikimedia.org/api/rest_v1/media/math/render/svg/dc34103f1c9678a7cecd09da7643691650c4b688)
ma ciò implica che
.
Si può dimostrare che il quoziente di Rayleigh assume il valore minimo
, che è il più piccolo autovalore di
, quando
è il corrispondente autovettore
. Analogamente, si ha
e
.
L'immagine del quoziente di Rayleigh è lo spettro di
, e il numero
è il raggio spettrale.
Un caso di particolare importanza si verifica quando la matrice
è la matrice delle covarianze. Un tale matrice può essere rappresentata dal prodotto
, dove
è una matrice di dati empirici e
la sua trasposta. Essendo simmetrica,
possiede autovalori non negativi e autovettori ortogonali (più precisamente, ortonormalizzabili). Infatti:
![{\displaystyle Av_{i}=D'Dv_{i}=\lambda _{i}v_{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/77335ac28b6fbed374f9eaeaf7fce49345358c8a)
![{\displaystyle \Rightarrow v_{i}'D'Dv_{i}=v_{i}'\lambda _{i}v_{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a3de56a7248e39ab710dfc57ec8bf5d5c6ca90a5)
![{\displaystyle \Rightarrow \left\|Dv_{i}\right\|^{2}=\lambda _{i}\left\|v_{i}\right\|^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a3ded12baa85f9a497afd28c483c2ef1b005c59e)
![{\displaystyle \Rightarrow \lambda _{i}={\frac {\left\|Dv_{i}\right\|^{2}}{\left\|v_{i}\right\|^{2}}}\geq 0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4ea799c20ff43eaf74a0e111d95f24ead53b04a7)
ovvero gli autovalori
non sono negativi. Inoltre:
![{\displaystyle {\begin{aligned}&\qquad \qquad Av_{i}=\lambda _{i}v_{i}\\&\Rightarrow v_{j}'Av_{i}=\lambda _{i}v_{j}'v_{i}\\&\Rightarrow \left(Av_{j}\right)'v_{i}=\lambda _{j}v_{j}'v_{i}\\&\Rightarrow \lambda _{j}v_{j}'v_{i}=\lambda _{i}v_{j}'v_{i}\\&\Rightarrow \left(\lambda _{j}-\lambda _{i}\right)v_{j}'v_{i}=0\\&\Rightarrow v_{j}'v_{i}=0\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/34b4b94c04ee2006216a9db75615d6dda8494b2d)
ovvero gli autovettori
sono ortogonali (ortonormalizzabili nel caso di autovettori differenti/molteplici).
Per mostrare che il quoziente di Rayleigh è massimizzato dall'autovettore relativo al più grande autovalore (raggio spettrale), si consideri la decomposizione di un generico vettore
nella base degli autovettori
:
![{\displaystyle x=\sum _{i=1}^{n}\alpha _{i}v_{i}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3afeba7a27155946678a9a13c3b97c4f01dbc36f)
dove:
![{\displaystyle \alpha _{i}={\frac {x'v_{i}}{v_{i}'v_{i}}}={\frac {\langle x,v_{i}\rangle }{\left\|v_{i}\right\|^{2}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c7ccaf59cd82268e0badaaa1cacd533f6e419f8c)
è la coordinata di
proiettata ortogonalmente su
. Quindi si ha:
![{\displaystyle R(A,x)={\frac {x'D'Dx}{x'x}}={\frac {\left(\sum _{j=1}^{n}\alpha _{j}v_{j}\right)'\left(D'D\right)\left(\sum _{i=1}^{n}\alpha _{i}v_{i}\right)}{\left(\sum _{j=1}^{n}\alpha _{j}v_{j}\right)'\left(\sum _{i=1}^{n}\alpha _{i}v_{i}\right)}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c2f6d34b909189c6f02551060133353686f979d3)
che per la mutua perpendicolarità degli autovettori diventa:
![{\displaystyle R(A,x)={\frac {\sum _{i=1}^{n}\alpha _{i}^{2}\lambda _{i}}{\sum _{i=1}^{n}\alpha _{i}^{2}}}=\sum _{i=1}^{n}\lambda _{i}{\frac {(x'v_{i})^{2}}{(x'x)(v_{i}'v_{i})}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a724e68b3fefa75bf2d9a621411d9e0f03a0d352)
ovvero il quoziente di Rayleigh è la somma dei coseni al quadrato degli angoli formati tra
e gli autovettori
, pesata per i rispettivi autovalori.
Se un vettore
massimizza
, allora anche ogni scalare non nullo
massimizza
e pertanto il problema può essere ridotto al metodo di Lagrange per massimizzare
, a condizione che:
![{\displaystyle \sum _{i=1}^{n}\alpha _{i}^{2}=1}](https://wikimedia.org/api/rest_v1/media/math/render/svg/66c79e2a21b39e9939c86f0b3e884218245ff238)
Questo risultato può essere ricavato anche utilizzando il metodo dei moltiplicatori di Lagrange. Il problema consiste nel trovare i punti critici della funzione:
![{\displaystyle R(A,x)=x^{T}Ax}](https://wikimedia.org/api/rest_v1/media/math/render/svg/51965939388dc454c72471b5fbd35ad45d795f35)
soggetta al vincolo
. Si tratta cioè di trovare i punti critici di:
![{\displaystyle {\mathcal {L}}(x)=x^{T}Ax-\lambda \left(x^{T}x-1\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5ede702a31180e9803808689e76cc3a13a3909a0)
dove
è un moltiplicatore di Lagrange. Il punto stazionario di
si verifica quando:
![{\displaystyle {\frac {d{\mathcal {L}}(x)}{dx}}=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c98dce5b82321942deee71c83252d2969e4e975a)
![{\displaystyle \Rightarrow 2x^{T}A^{T}-2\lambda x^{T}=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c44a7e25a5373dd3a4d03819149501a6fc212385)
![{\displaystyle \Rightarrow Ax=\lambda x}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f276350eb71e3e2f1de0efdaeb3a616b93bce382)
e:
![{\displaystyle R(A,x)={\frac {x^{T}Ax}{x^{T}x}}=\lambda {\frac {x^{T}x}{x^{T}x}}=\lambda }](https://wikimedia.org/api/rest_v1/media/math/render/svg/edeed24ad1c69471d5d1e57a7b8d38a927735502)
Quindi, gli autovettori
di
sono i punti critici del quoziente di Rayleigh e i rispettivi autovalori
sono i valori stazionari di
.
La teoria di Sturm-Liouville studia l'azione dell'operatore lineare:
![{\displaystyle L(y)={\frac {1}{w(x)}}\left(-{\frac {d}{dx}}\left[p(x){\frac {dy}{dx}}\right]+q(x)y\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/371147c6e1ef449ffd33e67888014e4866665d32)
sullo spazio prehilbertiano definito da:
![{\displaystyle \langle {y_{1},y_{2}}\rangle =\int _{a}^{b}w(x)y_{1}(x)y_{2}(x)\,dx}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f468853e4dcc2902529e7bb5eca8cd836212ccaa)
composto da funzioni che soddisfano alcune specifiche condizioni al contorno in
e
. In tal caso il quoziente di Rayleigh è:
![{\displaystyle {\frac {\langle {y,Ly}\rangle }{\langle {y,y}\rangle }}={\frac {\int _{a}^{b}y(x)\left(-{\frac {d}{dx}}\left[p(x){\frac {dy}{dx}}\right]+q(x)y(x)\right)dx}{\int _{a}^{b}{w(x)y(x)^{2}}dx}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1b6e5eef3a2153255093df7f439ec9b0d2a4a3c2)
Talvolta è presentato in una forma equivalente, ottenuta separando l'integrale al numeratore e utilizzando l'integrazione per parti:
![{\displaystyle {\begin{aligned}{\frac {\langle {y,Ly}\rangle }{\langle {y,y}\rangle }}&={\frac {\left\{\int _{a}^{b}y(x)\left(-{\frac {d}{dx}}\left[p(x)y'(x)\right]\right)dx\right\}+\left\{\int _{a}^{b}{q(x)y(x)^{2}}\,dx\right\}}{\int _{a}^{b}{w(x)y(x)^{2}}\,dx}}\\&={\frac {\left\{\left.-y(x)\left[p(x)y'(x)\right]\right|_{a}^{b}\right\}+\left\{\int _{a}^{b}y'(x)\left[p(x)y'(x)\right]\,dx\right\}+\left\{\int _{a}^{b}{q(x)y(x)^{2}}\,dx\right\}}{\int _{a}^{b}w(x)y(x)^{2}\,dx}}\\&={\frac {\left\{\left.-p(x)y(x)y'(x)\right|_{a}^{b}\right\}+\left\{\int _{a}^{b}\left[p(x)y'(x)^{2}+q(x)y(x)^{2}\right]\,dx\right\}}{\int _{a}^{b}{w(x)y(x)^{2}}\,dx}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a809e4269a2a82ade4fc581d7ec999d869477100)
Per una data coppia di matrici
e per un dato vettore
, il quoziente di Rayleigh generalizzato è definito come:
![{\displaystyle R(A,B;x):={\frac {x^{*}Ax}{x^{*}Bx}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d4db6a45ace7c36ce672e307be99a6ac2314bc54)
Il quoziente di Rayleigh generalizzato può essere ridotto al quoziente di Rayleigh
attraverso la trasformazione
, dove
è la decomposizione di Cholesky della matrice hermitiana
definita positiva.
- (EN) Shi Yu, Léon-Charles Tranchevent, Bart Moor, Yves Moreau, Kernel-based Data Fusion for Machine Learning: Methods and Applications in Bioinformatics and Text Mining, Ch. 2, Springer, 2011.
- (EN) Horn, R. A. and C. A. Johnson. 1985. Matrix Analysis. Cambridge University Press. pp. 176–180.
- (EN) Parlet B. N. The symmetric eigenvalue problem, SIAM, Classics in Applied Mathematics, 1998.