Vecteur contravariant, covariant et covecteur

Un vecteur contravariant est un vecteur, un vecteur covariant est une forme linéaire, encore appelé covecteur, ou encore vecteur dual[Information douteuse]. Et si on dispose d'un produit scalaire, on peut représenter une forme linéaire (= un vecteur covariant = un covecteur) par un vecteur à l'aide du théorème de représentation de Riesz (cette représentation dépend du choix du produit scalaire).

Toutes ces notions sont indépendantes de représentation dans une base : mais à partir du moment où on choisit une base ( e i ) {\displaystyle ({\vec {e}}_{i})} , la représentation des composantes des vecteurs, et des composantes des formes linéaires, est standard : elle se fait avec un indice en haut pour les composantes des vecteurs, comme v = i v i e i {\displaystyle {\vec {v}}=\sum _{i}v^{i}{\vec {e}}_{i}} , et un indice bas pour les composantes des formes linéaires, comme = i i e i {\displaystyle \ell =\sum _{i}\ell _{i}e^{i}} ( e i ) {\displaystyle (e^{i})} est la base duale.

Ce vocabulaire a été longtemps (et est encore souvent) associé au comportement des composantes lors d'un changement de base, en particulier les composantes d'un vecteur se transformant de manière inverse aux transformations des vecteurs de base : quand la transformation pour les vecteurs de base se lit matriciellement [ e j , n e w ] = P . [ e j , o l d ] {\displaystyle [{\vec {e}}_{j,new}]=P.[{\vec {e}}_{j,old}]} , alors la transformation pour les composantes se lit matriciellement [ v n e w i ] = P 1 . [ v o l d i ] {\displaystyle [v_{new}^{i}]=P^{-1}.[v_{old}^{i}]} , d'où le nom "contravariant" donné aux vecteurs (transformation "dans le sens inverse de P {\displaystyle P} "). Et les composantes des formes linéaires se transforment comme ( 1 , n e w . . . n , n e w ) = ( 1 , o l d . . . n , o l d ) . P {\displaystyle {\begin{pmatrix}\ell _{1,new}&...&\ell _{n,new}\end{pmatrix}}={\begin{pmatrix}\ell _{1,old}&...&\ell _{n,old}\end{pmatrix}}.P} (transformation "dans le sens P {\displaystyle P} ").

L'importance de la distinction entre vecteur covariant et contravariant se voit également dans l'étude de changement de base des tenseurs. Par exemple un tenseur 1 fois covariant et 1 fois contravariant (comme en endomorphisme) se transforme comme [ L n e w ] = P 1 . [ L o l d ] . P {\displaystyle [L_{new}]=P^{-1}.[L_{old}].P} , alors qu'un tenseur deux fois covariant (comme un produit scalaire) se transforme comme [ g n e w ] = P T . [ g o l d ] . P {\displaystyle [g_{new}]=P^{T}.[g_{old}].P} . Dans le cadre usuel d'un changement de systèmes de coordonnées (non orthonormé), comme un changement du système cartésien au système polaire, on ne peut confondre ces formules.

On confond souvent tenseur et calcul tensoriel ou matriciel (le calcul avec les formes multilinéaires), calculs indispensables entre autres en physique. Cependant, le calcul matriciel se concentre sur les calculs après représentation dans une base (où on retrouve la représentation en indices et en exposants), alors que les tenseurs, ou les champs de tenseurs (ici les champs de vecteurs et de formes linéaires), permettent une représentation par objets qui ont une existence indépendamment d'un "utilisateur" (indépendamment du choix d'une base ou du choix d'un produit scalaire). Ces tenseurs permettent, lorsqu'on fait un calcul tensoriel, d'être assuré que ce calcul est intrinsèque (résultat numérique indépendant de l'utilisateur). C'est un des apports essentiels de la géométrie différentielle à la physique.

Les vecteurs contravariants et covariants

Les expressions vecteur contravariant et vecteur covariant semblent être utilisées l'une pour l'autre suivant les origines scientifiques. Citons par exemple Spivak, A Comprehensive Introduction to Differential Geometry, Volume 1, 3rd edition, p. 113 : "...Classical terminology used these same words, and it just happens to have reversed this... And no one has had the gall or authority to reverse terminology so sanctified by years of usage...".

On adopte l'approche géométrie différentielle, où en particulier une forme linéaire est appelée un vecteur covariant (ou covecteur, ou vecteur dual). Après avoir rappelé les définitions, on se donnera une base, on en déduira la base duale, et retrouvera la représentation d'un vecteur et d'une forme linéaire (un vecteur covariant) à l'aide de leurs composantes.

On s'intéresse ici aux espaces vectoriels de dimension finie. On notera E {\displaystyle E} un espace vectoriel de dimension n {\displaystyle n} .

Définitions

Un vecteur est un élément d'un espace vectoriel E {\displaystyle E} , par exemple E = R n {\displaystyle E=\mathbb {R} ^{n}} , ou E = P 1 {\displaystyle E=P_{1}} l'espace des fonctions affines par morceaux, ou E = L 2 ( Ω ) {\displaystyle E=L^{2}(\Omega )} l'espace des fonctions d'énergie finie (espace des fonctions de carré intégrable).

Un vecteur est également appelé un vecteur contravariant, en référence au comportement de ses coordonnées dans une base.

Une forme linéaire sur E {\displaystyle E} est une application linéaire ϕ : E K {\displaystyle \phi :E\rightarrow \mathbb {K} } à valeurs dans un corps commutatif K {\displaystyle \mathbb {K} } . Dans la suite K = R {\displaystyle \mathbb {K} =\mathbb {R} } . On note E = L ( E ; R ) {\displaystyle E^{*}=L(E;{\mathbb {R} })} l'ensemble des formes linéaires sur E {\displaystyle E} , appelé le dual de E {\displaystyle E} .

E {\displaystyle E^{*}} est un espace vectoriel dont les éléments (qui sont donc des vecteurs) sont appelés vecteurs covariants (ou vecteurs duaux, ou covecteurs) : ils covarient avec les vecteurs de E {\displaystyle E} au sens où ils agissent sur les vecteurs. Ainsi un covecteur (une forme linéaire) E {\displaystyle \ell \in E^{*}} agit sur un vecteur v E {\displaystyle {\vec {v}}\in E} pour donner le réel ( v ) R {\displaystyle \ell ({\vec {v}})\in {\mathbb {R} }} .

Interprétation : une forme linéaire {\displaystyle \ell } est un "instrument de mesure" qui donne une valeur ( v ) {\displaystyle \ell ({\vec {v}})} aux objets "les vecteurs" v {\displaystyle {\vec {v}}} .

N.B. : un vecteur et une forme linéaire ont une existence par eux-mêmes (ils sont intrinsèques) : ils ne nécessitent ni l'introduction d'une base ni l'introduction d'un produit scalaire (qui dépendent du choix d'un "utilisateur"). Les vecteurs et formes linéaires sont les exemples les plus simples de tenseurs.

N.B. : plus loin on représentera une forme linéaire par un "vecteur de représentation" (théorème de représentation de Riesz), sous la condition essentielle de disposer d'un nouvel outil : un produit scalaire (le choix d'un tel outil dépend d'un "utilisateur"). Et il n'y a rien de "naturel" dans le choix d'un tel "vecteur de représentation". Ici le mot "naturel" a un sens mathématique précis : il signifie qu'il n'y a pas d'isomorphisme canonique entre E {\displaystyle E^{*}} et E {\displaystyle E} (un isomorphisme entre E {\displaystyle E} et E {\displaystyle E^{*}} existe mais nécessite l'introduction d'un nouvel outil comme un produit scalaire).

N.B. : il n'y a pas d'ambiguïté sur ce qu'est un vecteur covariant : c'est une forme linéaire sur E {\displaystyle E} , c'est-à-dire un élément de L ( E ; R ) = E = T 1 0 ( E ) {\displaystyle L(E;\mathbb {R} )=E^{*}=T_{1}^{0}(E)} (c'est un tenseur covariant). On lève les ambiguïtés sur ce qu'est un vecteur contravariant (par rapport à un vecteur) en commençant par considérer les formes linéaires sur E {\displaystyle E^{*}} , c'est-à-dire L ( E ; R ) = E {\displaystyle L(E^{*};\mathbb {R} )=E^{**}} le bidual (c'est l'ensemble T 0 1 ( E ) {\displaystyle T_{0}^{1}(E)} des tenseurs contravariants = {\displaystyle =} l'espace des dérivations directionnelles). Puis, par isomorphisme canonique (en dimension finie), on identifie E {\displaystyle E} (l'ensemble des vecteurs v {\displaystyle {\vec {v}}} ) et son bidual E {\displaystyle E^{**}} (l'ensemble des dérivations dans les directions de vecteurs v {\displaystyle {\vec {v}}} ). Cet isomorphisme permet de rebaptiser un vecteur contravariant en vecteur, et, de même, de rebaptiser un vecteur en un vecteur contravariant.

La base duale

Soit n {\displaystyle n} vecteurs e 1 , . . . , e n {\displaystyle {\vec {e}}_{1},...,{\vec {e}}_{n}} de E {\displaystyle E} formant une base. On définit la forme linéaire e i L ( E ; R ) = E {\displaystyle e^{i}\in L(E;\mathbb {R} )=E^{*}} (vecteur covariant) comme étant la projection sur la direction e i {\displaystyle {\vec {e}}_{i}} parallèlement aux autres directions :

j = 1 , . . . , n , e i ( e j ) = δ j i = { 1 , si  i = j , 0 , si  i j , {\displaystyle \forall j=1,...,n,\quad e^{i}({\vec {e}}_{j})=\delta _{j}^{i}={\begin{cases}1,&{\text{si }}i=j,\\0,&{\text{si }}i\neq j,\end{cases}}}

δ j i {\displaystyle \delta _{j}^{i}} étant le symbole de Kronecker. Les n {\displaystyle n} formes linéaires e 1 , . . . , e n {\displaystyle e^{1},...,e^{n}} forment une base de E {\displaystyle E^{*}} (vérification simple) appelée la base duale de la base ( e 1 , . . . , e n ) {\displaystyle ({\vec {e}}_{1},...,{\vec {e}}_{n})} . La base duale ( e 1 , . . . , e n ) {\displaystyle (e^{1},...,e^{n})} est donc constituée des formes linéaires de projection définies ci-dessus.

Calcul des composantes d'un vecteur

Si x E {\displaystyle {\vec {x}}\in E} , les réels x i {\displaystyle x^{i}} vérifiant x = i = 1 n x i e i {\displaystyle {\vec {x}}=\sum _{i=1}^{n}x^{i}{\vec {e}}_{i}} sont appelés les composantes de x {\displaystyle {\vec {x}}} dans la base ( e i ) {\displaystyle ({\vec {e}}_{i})} .

Connaissant la base ( e i ) {\displaystyle ({\vec {e}}_{i})} , on calcule la base duale ( e i ) {\displaystyle (e^{i})} , et les composantes du vecteur x {\displaystyle {\vec {x}}} sont calculées en appliquant les projections e i {\displaystyle e^{i}} sur x {\displaystyle {\vec {x}}}  : par linéarité de e i E {\displaystyle e^{i}\in E^{*}} on a e i ( x ) = j = 1 n x j e i ( e j ) = j = 1 n x j δ j i = x i = {\displaystyle e^{i}({\vec {x}})=\sum _{j=1}^{n}x^{j}\,e^{i}({\vec {e}}_{j})=\sum _{j=1}^{n}x^{j}\,\delta _{j}^{i}=x^{i}=} la i-ème composante de x {\displaystyle {\vec {x}}} (valeur de la projection de x {\displaystyle {\vec {x}}} sur e i {\displaystyle {\vec {e}}_{i}} parallèlement aux autres directions).

Dimensions

Donner une "valeur" à un objet, comme la taille d'un homme, la masse, la température..., n'a de sens que relativement à un "objet de référence". C'est donc définir une fonction {\displaystyle \ell } qui à l'objet x {\displaystyle x} associe la valeur ( x ) {\displaystyle \ell (x)} , où la fonction {\displaystyle \ell } est construite à l'aide de l'objet de référence. Ici on souhaite donner une taille "proportionnelle", et on choisit donc une fonction {\displaystyle \ell } linéaire.

Modélisation en une dimension : l'objet de référence (dont la valeur sera par exemple le pied anglais Pied (unité) est représenté par un vecteur e i {\displaystyle {\vec {e}}_{i}} . Lui attribuer la dimension 1 c'est prendre la fonction linéaire {\displaystyle \ell } définie par ( e i ) = 1 {\displaystyle \ell ({\vec {e}}_{i})=1} . La fonction {\displaystyle \ell } est alors notée e i {\displaystyle e^{i}} .

Ainsi si un homme est modélisé par un vecteur h {\displaystyle {\vec {h}}} alors sa taille est donnée par e i ( h ) {\displaystyle e^{i}({\vec {h}})} en unités de e i {\displaystyle {\vec {e}}_{i}} . Autrement dit, ayant posé h = h i e i {\displaystyle {\vec {h}}=h^{i}{\vec {e}}_{i}} (décomposition sur la base e i {\displaystyle {\vec {e}}_{i}} ), sa taille est donnée (en unités de e i {\displaystyle {\vec {e}}_{i}} ) par e i ( h ) = h i = {\displaystyle e^{i}({\vec {h}})=h^{i}=} la composante de h {\displaystyle {\vec {h}}} sur la base.

Ainsi un homme de 6 pieds fait référence à l'objet de référence "le pied anglais", et donc ici h = h i e i {\displaystyle {\vec {h}}=h^{i}{\vec {e}}_{i}} avec e i ( h ) = h i = 6 {\displaystyle e^{i}({\vec {h}})=h^{i}=6} en pieds. Si on préfère utiliser les mètres, on prend l'objet `mètre étalon' qu'on modélise par un vecteur a i {\displaystyle {\vec {a}}_{i}} , on prend la forme linéaire a i {\displaystyle a^{i}} qui vérifie a i ( a i ) = 1 {\displaystyle a^{i}({\vec {a}}_{i})=1} , et la taille de l'homme en mètres est la valeur a i ( h ) = k i {\displaystyle a^{i}({\vec {h}})=k^{i}} en mètres, composante de h = k i a i {\displaystyle {\vec {h}}=k^{i}{\vec {a}}_{i}} sur la base a i {\displaystyle {\vec {a}}_{i}} .

Modélisation en n dimensions : la i-ème composante sur la base donne `la taille le long du i-ème vecteur de base'.

Donnons l'exemple usuel en aviation. Pour fixer les idées considérons un aéroport qui a deux pistes d'atterrissages, une dirigée Nord, et l'autre dirigée Nord-Ouest. Les dimensions internationales en aviation sont le mille nautique ou mille marin (Nautical Mile NM) pour les distances horizontales et le pied anglais (foot ft) pour les distances verticales. Le contrôleur aérien, qui veut connaître la position des avions en approche, demande au pilote son altitude et sa distance à l'aéroport. Le repère le plus simple pour le contrôleur est ( O , e 1 , e 2 , e 3 ) {\displaystyle (O,{\vec {e}}_{1},{\vec {e}}_{2},{\vec {e}}_{3})} où O est la position de la tour de contrôle, et, par exemple, e 1 {\displaystyle {\vec {e}}_{1}} indique le nord et modélise un objet de longueur 1 NM, e 2 {\displaystyle {\vec {e}}_{2}} indique le nord-ouest et modélise un objet de longueur 1 NM, et e 3 {\displaystyle {\vec {e}}_{3}} indique la verticale et modélise un objet de 1 ft. Ainsi, un avion est repéré par sa position x = i x i e i {\displaystyle {\vec {x}}=\sum _{i}x^{i}{\vec {e}}_{i}} dans le référentiel ( O , e 1 , e 2 , e 3 ) {\displaystyle (O,{\vec {e}}_{1},{\vec {e}}_{2},{\vec {e}}_{3})} du contrôleur.

À partir de cette base, on définit la base duale ( e 1 , e 2 , e 3 ) {\displaystyle (e^{1},e^{2},e^{3})} e 1 {\displaystyle e^{1}} est la forme linéaire donnée par e 1 ( e 1 ) = 1 {\displaystyle e^{1}({\vec {e}}_{1})=1} , e 1 ( e 2 ) = 0 {\displaystyle e^{1}({\vec {e}}_{2})=0} , e 1 ( e 3 ) = 0 {\displaystyle e^{1}({\vec {e}}_{3})=0} (une forme linéaire est définie par ses valeurs sur les vecteurs de base), de même pour e 2 {\displaystyle e^{2}} et e 3 {\displaystyle e^{3}} (avec e i ( e j ) = δ j i {\displaystyle e^{i}({\vec {e}}_{j})=\delta _{j}^{i}} ). Si on veut connaître l'altitude de l'avion (en pieds), on calcule e 3 ( x ) = i x i e 3 ( e i ) = i x i δ i 3 = x 3 {\displaystyle e^{3}({\vec {x}})=\sum _{i}x^{i}e^{3}({\vec {e}}_{i})=\sum _{i}x^{i}\delta _{i}^{3}=x^{3}} (la troisième composante), valeur en pieds anglais. Et comme ce n'est que l'altitude qui nous intéressait, on a choisi la forme linéaire e 3 {\displaystyle e^{3}} , car elle s'annule sur l'espace engendré par e 1 {\displaystyle {\vec {e}}_{1}} et e 2 {\displaystyle {\vec {e}}_{2}} (son noyau) et vaut 1 sur e 3 {\displaystyle {\vec {e}}_{3}} . Et si l'avion arrive par la piste nord et qu'on souhaite connaître son éloignement, on calcule e 1 ( x ) = x 1 {\displaystyle e^{1}({\vec {x}})=x^{1}} (la première composante), valeur en NM. Et on vérifie qu'il n'arrive pas par la piste nord-ouest car dans notre cas e 2 ( x ) = x 2 = 0 {\displaystyle e^{2}({\vec {x}})=x^{2}=0} (la deuxième composante).

N.B. : on peut également se servir d'un produit scalaire pour définir une dimension. Un produit scalaire g {\displaystyle g} étant une forme bilinéaire, un produit scalaire est entièrement déterminé par ses valeurs sur les vecteurs de base, c'est-à-dire par les réels g ( e i , e j ) {\displaystyle g({\vec {e}}_{i},{\vec {e}}_{j})} notés usuellement g i j {\displaystyle g_{ij}} . Ainsi g {\displaystyle g} s'écrit g = i j g i j e i e j {\displaystyle g=\sum _{ij}g_{ij}e^{i}\otimes e^{j}} . Et donc on se sert explicitement de la base duale ( e i ) i = 1 , . . . , n {\displaystyle (e^{i})_{i=1,...,n}} qui justement sert à donner la "taille" 1 aux objets modélisés par les vecteurs e i {\displaystyle {\vec {e}}_{i}} . Autrement dit, la représentation d'un produit scalaire dans une base nécessite au préalable la définition de la base duale ( e i ) i = 1 , . . . , n {\displaystyle (e^{i})_{i=1,...,n}} .

Règles de changement de base des vecteurs (vecteurs contravariants)

Soit ( e i ) {\displaystyle ({\vec {e}}_{i})} une « ancienne » base et ( f i ) {\displaystyle ({\vec {f}}_{i})} une « nouvelle » base de E {\displaystyle E} . On notera ( e i ) {\displaystyle (e^{i})} et ( f i ) {\displaystyle (f^{i})} les bases duales respectives.

A j {\displaystyle j} fixé, soit ( P j i ) i = 1 , . . . , n {\displaystyle (P_{j}^{i})_{i=1,...,n}} les composantes de f j {\displaystyle {\vec {f}}_{j}} dans la base ( e i ) {\displaystyle ({\vec {e}}_{i})} , soit génériquement

f j = i P j i e i . {\displaystyle {\vec {f}}_{j}=\sum _{i}P_{j}^{i}{\vec {e}}_{i}.}

La matrice P = [ P j i ] {\displaystyle P=[P_{j}^{i}]} stocke dans sa colonne j {\displaystyle j} les composantes de f j {\displaystyle {\vec {f}}_{j}} dans la base ( e i ) {\displaystyle ({\vec {e}}_{i})}  : c'est la matrice de changement de base dite matrice de passage.

Et la matrice Q = P 1 {\displaystyle Q=P^{-1}} est la matrice de passage de la nouvelle base vers l'ancienne :

e j = i Q j i f i . {\displaystyle {\vec {e}}_{j}=\sum _{i}Q_{j}^{i}{\vec {f}}_{i}.}

En effet i Q j i f i = i Q j i k P i k e k = k i P i k Q j i e k = k ( P Q ) j k e k = k δ j k e k = e j {\displaystyle \sum _{i}Q_{j}^{i}{\vec {f}}_{i}=\sum _{i}Q_{j}^{i}\sum _{k}P_{i}^{k}{\vec {e}}_{k}=\sum _{k}\sum _{i}P_{i}^{k}Q_{j}^{i}{\vec {e}}_{k}=\sum _{k}(PQ)_{j}^{k}{\vec {e}}_{k}=\sum _{k}\delta _{j}^{k}{\vec {e}}_{k}={\vec {e}}_{j}} . Ainsi Q = P 1 {\displaystyle Q=P^{-1}} stocke dans sa colonne j {\displaystyle j} les composantes de e j {\displaystyle {\vec {e}}_{j}} dans la base ( f i ) {\displaystyle ({\vec {f}}_{i})} .

Soit x E {\displaystyle {\vec {x}}\in E} , et soit :

x = x o l d 1 e 1 + . . . + x o l d n e n = x n e w 1 f 1 + . . . + x n e w n f n , {\displaystyle {\vec {x}}=x_{old}^{1}{\vec {e}}_{1}+...+x_{old}^{n}{\vec {e}}_{n}=x_{new}^{1}{\vec {f}}_{1}+...+x_{new}^{n}{\vec {f}}_{n},}

où donc [ x ] o l d = ( x o l d 1 x o l d n ) {\displaystyle [{\vec {x}}]_{old}={\begin{pmatrix}x_{old}^{1}\\\vdots \\x_{old}^{n}\end{pmatrix}}} et [ x ] n e w = ( x n e w 1 x n e w n ) {\displaystyle [{\vec {x}}]_{new}={\begin{pmatrix}x_{new}^{1}\\\vdots \\x_{new}^{n}\end{pmatrix}}} sont les matrices colonnes stockant les composantes de x E {\displaystyle {\vec {x}}\in E} sur ces bases. (Un vecteur est représenté dans une base par une matrice colonne.)

Un calcul simple donne (on applique les formes linéaires f i {\displaystyle f^{i}} de la base duale de ( f i ) {\displaystyle ({\vec {f}}_{i})} à l'égalité ci-dessus) :

( x n e w 1 x n e w n ) = P 1 . ( x o l d 1 x o l d n ) {\displaystyle {\begin{pmatrix}x_{new}^{1}\\\vdots \\x_{new}^{n}\end{pmatrix}}=P^{-1}.{\begin{pmatrix}x_{old}^{1}\\\vdots \\x_{old}^{n}\end{pmatrix}}} .

Donc les nouvelles coordonnées varient en fonction de P 1 {\displaystyle P^{-1}} , inverse de P {\displaystyle P} , d'où le nom contravariant (les composantes se transforment « dans le sens contraire » au sens de la base).

Calcul des composantes d'une forme linéaire (d'un vecteur covariant)

Soit E {\displaystyle \ell \in E^{*}} et soit a i {\displaystyle a_{i}} ses composantes dans la base duale ( e i ) {\displaystyle (e^{i})} , c-à-d = a 1 e 1 + . . . + a n e n . {\displaystyle \ell =a_{1}e^{1}+...+a_{n}e^{n}.} Les composantes a j {\displaystyle a_{j}} sont calculées en appliquant les vecteurs e j {\displaystyle {\vec {e}}_{j}}  : par linéarité de {\displaystyle \ell } on a ( e j ) = i = 1 n a i e i ( e j ) = i = 1 n a i δ j i = a j = {\displaystyle \ell ({\vec {e}}_{j})=\sum _{i=1}^{n}a_{i}\,e^{i}({\vec {e}}_{j})=\sum _{i=1}^{n}a_{i}\,\delta _{j}^{i}=a_{j}=} la j-ème composante de {\displaystyle \ell } .

Représentation matricielle d'une forme linéaire (d'un vecteur covariant)

On représente une forme linéaire dans une base à l'aide d'une matrice ligne, soit avec les notations ci-dessus [ ] = ( a 1 . . . a n ) {\displaystyle [\ell ]={\begin{pmatrix}a_{1}&...&a_{n}\end{pmatrix}}} . On dispose ainsi des règles usuelles du calcul matriciel :

( x ) = [ ] . [ x ] = ( a 1 . . . a n ) . ( x 1 x n ) = a 1 x 1 + . . . + a n x n . {\displaystyle \ell ({\vec {x}})=[\ell ].[{\vec {x}}]={\begin{pmatrix}a_{1}&...&a_{n}\end{pmatrix}}.{\begin{pmatrix}x^{1}\\\vdots \\x^{n}\end{pmatrix}}=a_{1}x^{1}+...+a_{n}x^{n}.}

Voir la convention d'Einstein ci-dessous.

Règles de changement de base des formes (vecteurs covariants)

Soit E {\displaystyle \ell \in E^{*}} , et soit :

= a 1 , o l d e 1 + . . . + a n , o l d e n = a 1 , n e w f 1 + . . . + a n , n e w f n , {\displaystyle \ell =a_{1,old}e^{1}+...+a_{n,old}e^{n}=a_{1,new}f^{1}+...+a_{n,new}f^{n},}

où donc [ ] o l d = ( a 1 , o l d . . . a n , o l d ) {\displaystyle [\ell ]_{old}={\begin{pmatrix}a_{1,old}&...&a_{n,old}\end{pmatrix}}} et [ ] n e w = ( a 1 , n e w . . . a n , n e w ) {\displaystyle [\ell ]_{new}={\begin{pmatrix}a_{1,new}&...&a_{n,new}\end{pmatrix}}} sont les composantes de E {\displaystyle \ell \in E^{*}} sur les bases duales. (Une forme linéaire est représentée dans une base par une matrice ligne.) Un calcul simple (on calcule les ( f i ) {\displaystyle \ell ({\vec {f}}_{i})} à l'aide de l'égalité ci-dessus) donne :

( a 1 , n e w . . . a n , n e w ) = ( a 1 , o l d . . . a n , o l d ) . P {\displaystyle {\begin{pmatrix}a_{1,new}&...&a_{n,new}\end{pmatrix}}={\begin{pmatrix}a_{1,old}&...&a_{n,old}\end{pmatrix}}.P} .

D'où le nom (vecteur) covariant donné aux formes linéaires (les composantes se transforment "dans le même sens" que la base).

On vérifie immédiatement avec ces formules de changement de base que la quantité ( x ) {\displaystyle \ell ({\vec {x}})} ne dépend pas de la base, car P . P 1 = I {\displaystyle P.P^{-1}=I} (matrice identité) : la valeur ( x ) {\displaystyle \ell ({\vec {x}})} ne dépend pas du choix de la base : on a bien :

( a 1 , n e w . . . a n , n e w ) . ( x n e w 1 x n e w n ) = ( a 1 , o l d . . . , a n , o l d ) . P . P 1 . ( x o l d 1 x o l d n ) = ( a 1 , o l d . . . a n , o l d ) . ( x o l d 1 x o l d n ) {\displaystyle {\begin{pmatrix}a_{1,new}&...&a_{n,new}\end{pmatrix}}.{\begin{pmatrix}x_{new}^{1}\\\vdots \\x_{new}^{n}\end{pmatrix}}={\begin{pmatrix}a_{1,old}&...,a_{n,old}\end{pmatrix}}.P.P^{-1}.{\begin{pmatrix}x_{old}^{1}\\\vdots \\x_{old}^{n}\end{pmatrix}}={\begin{pmatrix}a_{1,old}&...&a_{n,old}\end{pmatrix}}.{\begin{pmatrix}x_{old}^{1}\\\vdots \\x_{old}^{n}\end{pmatrix}}} .

La différence de sens est visible si on utilise les notations génériques :

x n e w i = j Q j i x o l d j , a j , o l d = i a i , n e w Q j i , {\displaystyle x_{new}^{i}=\sum _{j}Q_{j}^{i}x_{old}^{j},\qquad a_{j,old}=\sum _{i}a_{i,new}Q_{j}^{i},}

Q = P 1 {\displaystyle Q=P^{-1}} matrice inverse. La première égalité donne Q j i = x n e w i x o l d j {\displaystyle Q_{j}^{i}={\partial x_{new}^{i} \over \partial x_{old}^{j}}} (on est ici dans le cadre des changements de coordonnées cartésiens, cas où les vecteurs de base ne dépendent pas de x {\displaystyle {\vec {x}}} ), d'où la notation générique :

x n e w i = j x n e w i x o l d j x o l d j , a j , o l d = i a i , n e w x n e w i x o l d j . {\displaystyle x_{new}^{i}=\sum _{j}{\partial x_{new}^{i} \over \partial x_{old}^{j}}x_{old}^{j},\qquad a_{j,old}=\sum _{i}a_{i,new}{\partial x_{new}^{i} \over \partial x_{old}^{j}}.}

N.B. : il se trouve que pour un changement de bases orthonormées, on a P 1 = P T {\displaystyle P^{-1}=P^{T}} (matrice transposée), et qu'alors les règles de changement de bases sont les mêmes... à la transposition près (matrices lignes transformées en matrices colonnes). C'est bien sûr faux si le changement de base n'est pas orthonormé.

Et indépendamment des règles de changement de base, les physiciens sont très attachés au caractère "covariant" (l'instrument de mesure) ou "contravariant" (l'objet à mesurer).

Dans un espace de Hilbert : représentation d'une forme linéaire par un vecteur

Le vecteur de représentation (dépend d'un produit scalaire)

Pour "représenter" une forme linéaire par un vecteur, on introduit un nouvel outil : un produit scalaire sur E {\displaystyle E} noté ici ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} (une forme bilinéaire symétrique définie positive). L'existence et l'unicité d'un vecteur de représentation est alors donné par le théorème de représentation de Riesz :

si {\displaystyle \ell } est une forme linéaire continue sur E {\displaystyle E} , espace de Hilbert pour le produit scalaire ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} , alors :

! g E , x E , ( x ) = ( g , x ) g {\displaystyle \exists !{\vec {\ell }}_{g}\in E,\quad \forall {\vec {x}}\in E,\quad \ell ({\vec {x}})=({\vec {\ell }}_{g},{\vec {x}})_{g}} ,

g E {\displaystyle {\vec {\ell }}_{g}\in E} est le vecteur représentant E {\displaystyle \ell \in E^{*}} au travers du produit scalaire ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} . (En dimension finie les formes linéaires sont toutes continues, et les espaces vectoriels munis d'un produit scalaire sont tous des espaces de Hilbert ; c'est faux en dimension infinie.) Un intérêt essentiel de cette représentation vectorielle d'une forme linéaire est la représentation graphique.

Définition : le vecteur g {\displaystyle {\vec {\ell }}_{g}} est appelé le vecteur de représentation de {\displaystyle \ell } pour le produit scalaire ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} .

Une base ( e i ) {\displaystyle ({\vec {e}}_{i})} étant fixée, le produit scalaire ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} étant fixé, on note [ g ] = [ g i j ] = [ ( e i , e j ) g ] {\displaystyle [g]=[g_{ij}]=[({\vec {e}}_{i},{\vec {e}}_{j})_{g}]} la matrice du produit scalaire. Comme ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} est un produit scalaire, il est bilinéaire, et donc, en notant x = i x i e i {\displaystyle {\vec {x}}=\sum _{i}x^{i}{\vec {e}}_{i}} et y = j y j e j {\displaystyle {\vec {y}}=\sum _{j}y^{j}{\vec {e}}_{j}} , on a

( x , y ) g = i j x i y j ( e i , e j ) g = i j x i g i j y j = [ x ] T . [ g ] . [ y ] {\displaystyle ({\vec {x}},{\vec {y}})_{g}=\sum _{ij}x^{i}y^{j}({\vec {e}}_{i},{\vec {e}}_{j})_{g}=\sum _{ij}x^{i}g_{ij}y^{j}=[{\vec {x}}]^{T}.[g].[{\vec {y}}]} .

Si = i i e i {\displaystyle \ell =\sum _{i}\ell _{i}e^{i}} et g = i i e i {\displaystyle {\vec {\ell }}_{g}=\sum _{i}\ell ^{i}{\vec {e}}_{i}} , où donc [ ] = ( 1 . . . n ) {\displaystyle [\ell ]={\begin{pmatrix}\ell _{1}&...&\ell _{n}\end{pmatrix}}} et [ g ] = ( 1 n ) {\displaystyle [{\vec {\ell }}_{g}]={\begin{pmatrix}\ell ^{1}\\\vdots \\\ell ^{n}\end{pmatrix}}} sont les matrices des composantes de {\displaystyle \ell } et de g {\displaystyle {\vec {\ell }}_{g}} , par définition du vecteur de représentation g {\displaystyle {\vec {\ell }}_{g}} de {\displaystyle \ell } , la définition ( x ) = ( g , x ) g {\displaystyle \ell ({\vec {x}})=({\vec {\ell }}_{g},{\vec {x}})_{g}} donne la relation matricielle [ ] . [ x ] = [ g ] T . [ g ] . [ x ] {\displaystyle [\ell ].[{\vec {x}}]=[{\vec {\ell }}_{g}]^{T}.[g].[{\vec {x}}]} pour tout x {\displaystyle {\vec {x}}} . Donc :

[ ] = [ g ] T . [ g ] soit encore [ g ] = [ g ] 1 . [ ] T . {\displaystyle [\ell ]=[{\vec {\ell }}_{g}]^{T}.[g]\qquad {\hbox{soit encore}}\qquad [{\vec {\ell }}_{g}]=[g]^{-1}.[\ell ]^{T}.}

Soit explicitement :

j = i i g i j , et i = j g i j j , {\displaystyle \ell _{j}=\sum _{i}\ell ^{i}g_{ij},\qquad {\hbox{et}}\qquad \ell ^{i}=\sum _{j}g^{ij}\ell _{j},}

où par définition on a noté [ g ] 1 = [ g i j ] {\displaystyle [g]^{-1}=[g^{ij}]} .

Le vecteur de représentation est contravariant (c'est un vecteur)

Le "vecteur covariant" (la forme linéaire) a ses composantes qui suivent les règles de changement de base des formes linéaires, alors que le vecteur de représentation g {\displaystyle {\vec {\ell }}_{g}} représentant {\displaystyle \ell } , après choix d'un produit scalaire, a ses composantes qui suivent les règles de changement de base des vecteurs :

[ ] n e w = [ ] o l d . P , [ g ] n e w = P 1 . [ g ] o l d {\displaystyle [\ell ]_{new}=[\ell ]_{old}.P,\qquad [{\vec {\ell }}_{g}]_{new}=P^{-1}.[{\vec {\ell }}_{g}]_{old}} .

En effet, relativement aux bases "old" et "new" les relations entre g {\displaystyle {\vec {\ell }}_{g}} et {\displaystyle \ell } sont [ g ] n e w = [ g ] n e w 1 . [ ] n e w T {\displaystyle [{\vec {\ell }}_{g}]_{new}=[g]_{new}^{-1}.[\ell ]_{new}^{T}} et [ g ] o l d = [ g ] o l d 1 . [ ] o l d T {\displaystyle [{\vec {\ell }}_{g}]_{old}=[g]_{old}^{-1}.[\ell ]_{old}^{T}} . Donc avec les règles de changement de bases des formes linéaires, soit [ ] n e w = [ ] o l d . P {\displaystyle [\ell ]_{new}=[\ell ]_{old}.P} , et des formes bilinéaires, soit [ g ] n e w = P T . [ g ] o l d . P {\displaystyle [g]_{new}=P^{T}.[g]_{old}.P} (facile à vérifier), on obtient :

[ g ] n e w = [ g ] n e w 1 . [ ] n e w T = ( P 1 . [ g ] o l d 1 . P T 1 ) . ( P T . [ ] o l d T ) = P 1 . [ g ] o l d 1 . ( [ g ] o l d . [ ] o l d ) = P 1 . [ g ] o l d {\displaystyle [{\vec {\ell }}_{g}]_{new}=[g]_{new}^{-1}.[\ell ]_{new}^{T}=(P^{-1}.[g]_{old}^{-1}.{P^{T}}^{-1}).(P^{T}.[\ell ]_{old}^{T})=P^{-1}.[g]_{old}^{-1}.([g]_{old}.[{\vec {\ell }}]_{old})=P^{-1}.[{\vec {\ell }}_{g}]_{old}} .

Les règles de changement de base pour g {\displaystyle {\vec {\ell }}_{g}} sont bien contravariantes.

Exemple : soit E = R 2 {\displaystyle E=\mathbb {R} ^{2}} et son produit scalaire canonique (euclidien) : si x = ( x 1 x 2 ) {\displaystyle {\vec {x}}={\begin{pmatrix}x^{1}\\x^{2}\end{pmatrix}}} et y = ( y 1 y 2 ) {\displaystyle {\vec {y}}={\begin{pmatrix}y^{1}\\y^{2}\end{pmatrix}}} sont deux vecteurs exprimés dans la base canonique, ce produit scalaire est donné par ( x , y ) g = x 1 y 1 + x 2 y 2 {\displaystyle ({\vec {x}},{\vec {y}})_{g}=x^{1}y^{1}+x^{2}y^{2}} . Soit alors la forme linéaire {\displaystyle \ell } donnée par ( x ) = 1 x 1 + 2 x 2 {\displaystyle \ell ({\vec {x}})=\ell _{1}x^{1}+\ell _{2}x^{2}} . On représente la forme linéaire {\displaystyle \ell } par la matrice ligne [ ] = ( 1 2 ) {\displaystyle [\ell ]={\begin{pmatrix}\ell _{1}&\ell _{2}\end{pmatrix}}} , et le résultat

( x ) = [ ] . [ x ] = ( 1 2 ) . ( x 1 x 2 ) = 1 x 1 + 2 x 2 = i i x i {\displaystyle \ell ({\vec {x}})=[\ell ].[{\vec {x}}]={\begin{pmatrix}\ell _{1}&\ell _{2}\end{pmatrix}}.{\begin{pmatrix}x^{1}\\x^{2}\end{pmatrix}}=\ell _{1}x^{1}+\ell _{2}x^{2}=\sum _{i}\ell _{i}x^{i}}

est donné par le produit matriciel usuel.

On a également ( x ) = ( g , x ) g {\displaystyle \ell ({\vec {x}})=({\vec {\ell }}_{g},{\vec {x}})_{g}} , où le vecteur de représentation g {\displaystyle {\vec {\ell }}_{g}} est, comme tout vecteur, représenté par une matrice colonne [ g ] = ( 1 2 ) {\displaystyle [{\vec {\ell }}_{g}]={\begin{pmatrix}\ell ^{1}\\\ell ^{2}\end{pmatrix}}} . Et trivialement, pour le produit scalaire euclidien, on a i = i {\displaystyle \ell ^{i}=\ell _{i}} . Ici l'utilisation du produit scalaire euclidien dans la base euclidienne rend les calculs immédiats avec :

Représentation graphique : le vecteur {\displaystyle {\vec {\ell }}} est orthogonal (relativement au produit scalaire euclidien) à la droite d'équation 1 x 1 + 2 x 2 = 0 = ( , x ) g = ( x ) {\displaystyle \ell _{1}x^{1}+\ell _{2}x^{2}=0=({\vec {\ell }},{\vec {x}})_{g}=\ell ({\vec {x}})} . Autrement dit le noyau K e r ( ) = { x : ( x ) = 0 } = { x : x } {\displaystyle Ker(\ell )=\{{\vec {x}}:\ell ({\vec {x}})=0\}=\{{\vec {x}}:{\vec {x}}\perp {\vec {\ell }}\}} de la forme linéaire est l'ensemble des vecteurs orthogonaux à {\displaystyle {\vec {\ell }}} .

Noter l'incohérence de la position des indices et exposants (voir la convention d'Einstein plus loin). La cohérence est retrouvée en appliquant la formule ( g , x ) g = i , j i g i j x j {\displaystyle ({\vec {\ell }}_{g},{\vec {x}})_{g}=\sum _{i,j}\ell ^{i}g_{ij}x^{j}} sachant qu'ici g i j = δ i j {\displaystyle g_{ij}=\delta _{ij}} .

Exemple bis : soit E = R 2 {\displaystyle E=\mathbb {R} ^{2}} mais qu'on munit du produit scalaire de matrice [ g ] = ( 1 0 0 2 ) {\displaystyle [g]={\begin{pmatrix}1&0\\0&2\end{pmatrix}}} relativement à la base canonique : c'est typiquement le cas lors de la résolution d'un problème matriciel par la méthode du gradient conjugué, ou encore de l'analyse d'image (exemple : un cercle est dessiné au sol, mais vu de loin vu d'un avion il ressemble à une ellipse de petit axe ici deux fois plus petit que le grand axe). Dans ce cas, si [ ] = ( 1 2 ) {\displaystyle [\ell ]={\begin{pmatrix}\ell _{1}&\ell _{2}\end{pmatrix}}} alors [ g ] = ( 1 = 1 2 = 1 2 2 ) {\displaystyle [{\vec {\ell }}_{g}]={\begin{pmatrix}\ell ^{1}=\ell _{1}\\\ell ^{2}={1 \over 2}\ell _{2}\end{pmatrix}}} .

Exemple : gradient

Soit f : E R {\displaystyle f:E\rightarrow \mathbb {R} } une application C 1 {\displaystyle C^{1}} au voisinage d'un point x 0 E {\displaystyle {\vec {x}}_{0}\in E} . La différentielle de f {\displaystyle f} en ce point est la forme linéaire {\displaystyle \ell } vérifiant (développement limité au premier ordre), dans un voisinage de h = 0 {\displaystyle h=0} , pour tout vecteur v E {\displaystyle {\vec {v}}\in E}  :

f ( x 0 + h v ) = f ( x 0 ) + h ( v ) + o ( h ) {\displaystyle f({\vec {x}}_{0}+h\,{\vec {v}})=f({\vec {x}}_{0})+h\,\ell ({\vec {v}})+o(h)} ,

et on note généralement = d f ( x 0 ) E {\displaystyle \ell =df({\vec {x}}_{0})\in E^{*}} . Si on dispose, en plus, d'un produit scalaire ( , ) g {\displaystyle (\cdot ,\cdot )_{g}} sur E {\displaystyle E} , on définit alors le vecteur gradient f ( x 0 ) {\displaystyle {\vec {\nabla }}f({\vec {x}}_{0})} de f {\displaystyle f} en x 0 {\displaystyle {\vec {x}}_{0}} comme étant le vecteur de représentation de la différentielle d f ( x 0 ) {\displaystyle df({\vec {x}}_{0})} relativement au produit scalaire. Donc par définition, pour tout vecteur v E {\displaystyle {\vec {v}}\in E}  :

( lim h 0 f ( x 0 + h v ) f ( x 0 ) h ) = d f ( x 0 ) . v = ( f ( x 0 ) , v ) g {\displaystyle (\lim _{h\rightarrow 0}{f({\vec {x}}_{0}+h\,{\vec {v}})-f({\vec {x}}_{0}) \over h})=\quad df({\vec {x}}_{0}).{\vec {v}}=({\vec {\nabla }}f({\vec {x}}_{0}),{\vec {v}})_{g}} .

Exemple : le gradient d'une fonction f : x R 2 f ( x ) R {\displaystyle f:{\vec {x}}\in \mathbb {R} ^{2}\rightarrow f({\vec {x}})\in \mathbb {R} } en un point est le vecteur de représentation relativement au produit scalaire euclidien donné en coordonnées polaires par : f ( x ) = ( f ρ ( x ) 1 ρ f θ ( x ) ) {\displaystyle {\vec {\nabla }}f({\vec {x}})={\begin{pmatrix}{\partial f \over \partial \rho }({\vec {x}})\\{1 \over \rho }\,{\partial f \over \partial \theta }({\vec {x}})\end{pmatrix}}} .

Calcul

Réponse condensée.

On donne ici une démarche générique permettant de trouver l'expression du gradient dans tout système de coordonnées.

1- Soit ϕ : q = ( ρ θ ) x = ϕ ( q ) = ( x = ρ cos θ y = ρ sin θ ) {\displaystyle {\vec {\phi }}:{\vec {q}}={\begin{pmatrix}\rho \\\theta \end{pmatrix}}\rightarrow {\vec {x}}={\vec {\phi }}({\vec {q}})={\begin{pmatrix}x=\rho \,\cos \theta \\y=\rho \,\sin \theta \end{pmatrix}}} le système de coordonnées polaires (le vecteur q {\displaystyle {\vec {q}}} est le vecteur des coordonnées paramétriques et le vecteur x {\displaystyle {\vec {x}}} est le vecteur des coordonnées géométriques). Soit ( E 1 , E 2 ) {\displaystyle ({\vec {E}}_{1},{\vec {E}}_{2})} la base canonique de R 2 {\displaystyle \mathbb {R} ^{2}} .

La base du système polaire en un point géométrique x = ϕ ( q ) {\displaystyle {\vec {x}}={\vec {\phi }}({\vec {q}})} est par définition ( e 1 ( x ) , e 2 ( x ) ) {\displaystyle ({\vec {e}}_{1}({\vec {x}}),{\vec {e}}_{2}({\vec {x}}))}

e 1 ( x ) = d ϕ ( q ) . E 1 = lim h 0 ϕ ( q + h E 1 ) ϕ ( q ) h = lim h 0 ϕ ( ρ + h , θ ) ϕ ( ρ , θ ) h = ϕ ρ ( q ) = ( cos θ sin θ ) , {\displaystyle {\vec {e}}_{1}({\vec {x}})=d{\vec {\phi }}({\vec {q}}).{\vec {E}}_{1}=\lim _{h\rightarrow 0}{{\vec {\phi }}({\vec {q}}+h\,{\vec {E}}_{1})-{\vec {\phi }}({\vec {q}}) \over h}=\lim _{h\rightarrow 0}{{\vec {\phi }}(\rho +h,\theta )-{\vec {\phi }}(\rho ,\theta ) \over h}={\partial {\vec {\phi }} \over \partial \rho }({\vec {q}})={\begin{pmatrix}\cos \theta \\\sin \theta \end{pmatrix}},}

la matrice colonne représentant les composantes de e 1 ( x ) {\displaystyle {\vec {e}}_{1}({\vec {x}})} dans la base canonique de l'espace géométrique, et

e 2 ( x ) = d ϕ ( x ) . E 2 = lim h 0 ϕ ( q + h E 2 ) ϕ ( q ) h = lim h 0 ϕ ( ρ , θ + h ) ϕ ( ρ , θ ) h = ϕ θ ( q ) = ( ρ sin θ ρ cos θ ) . {\displaystyle {\vec {e}}_{2}({\vec {x}})=d{\vec {\phi }}({\vec {x}}).{\vec {E}}_{2}=\lim _{h\rightarrow 0}{{\vec {\phi }}({\vec {q}}+h\,{\vec {E}}_{2})-{\vec {\phi }}({\vec {q}}) \over h}=\lim _{h\rightarrow 0}{{\vec {\phi }}(\rho ,\theta +h)-{\vec {\phi }}(\rho ,\theta ) \over h}={\partial {\vec {\phi }} \over \partial \theta }({\vec {q}})={\begin{pmatrix}-\rho \,\sin \theta \\\rho \,\cos \theta \end{pmatrix}}.}

(Dessin : en x {\displaystyle {\vec {x}}} on dessine le vecteur e 1 ( x ) {\displaystyle {\vec {e}}_{1}({\vec {x}})}  : c'est un vecteur "radial" unitaire. Et on dessine le vecteur e 2 ( x ) {\displaystyle {\vec {e}}_{2}({\vec {x}})}  : c'est un vecteur orthogonal au précédent de longueur ρ {\displaystyle \rho } .)

2- La base duale du système en x {\displaystyle {\vec {x}}} est la base ( e 1 ( x ) = d ρ ( x ) , e 2 ( x ) = d θ ( x ) ) {\displaystyle (e^{1}({\vec {x}})=d\rho ({\vec {x}}),e^{2}({\vec {x}})=d\theta ({\vec {x}}))} (ce sont effectivement les différentielles usuelles des fonctions ρ ( x , y ) {\displaystyle \rho (x,y)} et θ ( x , y ) {\displaystyle \theta (x,y)} composantes de q = ϕ 1 ( x ) {\displaystyle {\vec {q}}={\vec {\phi }}^{-1}({\vec {x}})} ).

3- Soit une fonction f {\displaystyle f} définie sur l'espace géométrique : elle est de type f ( x ) {\displaystyle f({\vec {x}})} . De manière générique, étant donné une base ( e 1 ( x ) , e 2 ( x ) ) {\displaystyle ({\vec {e}}_{1}({\vec {x}}),{\vec {e}}_{2}({\vec {x}}))} de base duale associée ( e 1 ( x ) , e 2 ( x ) ) {\displaystyle (e^{1}({\vec {x}}),e^{2}({\vec {x}}))} , sa différentielle s'exprime donc comme :

d f ( x ) = ( d f ( x ) . e 1 ( x ) ) e 1 ( x ) + ( d f ( x ) . e 2 ( x ) ) e 2 ( x ) = f ρ ( x ) d ρ ( x ) + f θ ( x ) d θ ( x ) , {\displaystyle df({\vec {x}})=(df({\vec {x}}).{\vec {e}}_{1}({\vec {x}}))\,e^{1}({\vec {x}})+(df({\vec {x}}).{\vec {e}}_{2}({\vec {x}}))\,e^{2}({\vec {x}})={\partial f \over \partial \rho }({\vec {x}})\,d\rho ({\vec {x}})+{\partial f \over \partial \theta }({\vec {x}})\,d\theta ({\vec {x}}),}

où, par définition des notations : f ρ ( x ) = d e ´ f d f ( x ) . e 1 ( x ) = lim h 0 f ( x + h e 1 ( x ) ) f ( x ) h {\displaystyle {\partial f \over \partial \rho }({\vec {x}})=^{d{\acute {e}}f}df({\vec {x}}).{\vec {e}}_{1}({\vec {x}})=\lim _{h\rightarrow 0}{f({\vec {x}}+h\,{\vec {e}}_{1}({\vec {x}}))-f({\vec {x}}) \over h}} est la dérivée suivant le premier vecteur de base du système polaire, et de même f θ ( x ) = d e ´ f d f ( x ) . e 2 ( x ) = lim h 0 f ( x + h e 2 ( x ) ) f ( x ) h {\displaystyle {\partial f \over \partial \theta }({\vec {x}})=^{d{\acute {e}}f}df({\vec {x}}).{\vec {e}}_{2}({\vec {x}})=\lim _{h\rightarrow 0}{f({\vec {x}}+h\,{\vec {e}}_{2}({\vec {x}}))-f({\vec {x}}) \over h}} est la dérivée suivant le deuxième vecteur de base du système polaire.

N.B. : c'est bien une définition de notations car f {\displaystyle f} est une fonction qui dépend de x {\displaystyle {\vec {x}}} et non de q {\displaystyle {\vec {q}}} . Plus précisément f ρ ( x , y ) = d e ´ f F ρ ( ρ , θ ) {\displaystyle {\partial f \over \partial \rho }(x,y)=^{d{\acute {e}}f}{\partial F \over \partial \rho }(\rho ,\theta )} F {\displaystyle F} est la fonction définie par F ( q ) = f ( x ) {\displaystyle F({\vec {q}})=f({\vec {x}})} quand x = ϕ ( q ) {\displaystyle {\vec {x}}={\vec {\phi }}({\vec {q}})} , c'est-à-dire de F = d e ´ f f ϕ {\displaystyle F=^{d{\acute {e}}f}f\circ {\vec {\phi }}} . Par dérivation de fonctions composées, on obtient d F ( q ) = d f ( x ) d ϕ ( q ) {\displaystyle dF({\vec {q}})=df({\vec {x}})\circ d{\vec {\phi }}({\vec {q}})} , ou dans la notation habituelle de la linéarité d F ( q ) = d f ( x ) . d ϕ ( q ) {\displaystyle dF({\vec {q}})=df({\vec {x}}).d{\vec {\phi }}({\vec {q}})} , et donc F ρ ( q ) = d F ( q ) . E 1 = d f ( x ) . d ϕ ( q ) . E 1 = d f ( x ) . e 1 ( x ) = n o t e ´ f ρ ( x ) {\displaystyle {\partial F \over \partial \rho }({\vec {q}})=dF({\vec {q}}).{\vec {E}}_{1}=df({\vec {x}}).d{\vec {\phi }}({\vec {q}}).{\vec {E}}_{1}=df({\vec {x}}).{\vec {e}}_{1}({\vec {x}})=^{not{\acute {e}}}{\partial f \over \partial \rho }({\vec {x}})} , et de même F θ ( q ) = d f ( x ) . e 2 ( x ) = n o t e ´ f θ ( x ) {\displaystyle {\partial F \over \partial \theta }({\vec {q}})=df({\vec {x}}).{\vec {e}}_{2}({\vec {x}})=^{not{\acute {e}}}{\partial f \over \partial \theta }({\vec {x}})} . Et comme d F ( q ) = F ρ ( q ) d ρ + F θ d θ {\displaystyle dF({\vec {q}})={\partial F \over \partial \rho }({\vec {q}})\,d\rho +{\partial F \over \partial \theta }\,d\theta } est l'expression de la différentielle d F ( q ) {\displaystyle dF({\vec {q}})} dans la base ( d ρ , d θ ) {\displaystyle (d\rho ,d\theta )} duale de la base canonique de l'espace paramétrique (le nom des variables est ρ {\displaystyle \rho } et θ {\displaystyle \theta } dans l'espace de définition de F {\displaystyle F} ), on écrit d f = f ρ d ρ + f θ d θ {\displaystyle df={\partial f \over \partial \rho }\,d\rho +{\partial f \over \partial \theta }\,d\theta } à l'aide des définitions ci-dessus. Cela a le sens : d f ( x ) = f ρ ( x ) d ρ ( x ) + f θ ( x ) d θ ( x ) {\displaystyle df({\vec {x}})={\partial f \over \partial \rho }({\vec {x}})\,d\rho ({\vec {x}})+{\partial f \over \partial \theta }({\vec {x}})\,d\theta ({\vec {x}})} , la base ( d ρ ( x ) , d θ ( x ) ) {\displaystyle (d\rho ({\vec {x}}),d\theta ({\vec {x}}))} étant en x {\displaystyle {\vec {x}}} la base duale de la base ( e 1 ( x ) , e 2 ( x ) ) {\displaystyle ({\vec {e}}_{1}({\vec {x}}),{\vec {e}}_{2}({\vec {x}}))} du système de coordonnées en x {\displaystyle {\vec {x}}} (espace géométrique).

4- Par définition du gradient, le produit scalaire étant ici le produit scalaire canonique, on a (théorème de représentation de Riesz) ( f ( x ) , v ) c a n o n = d f ( x ) . v {\displaystyle ({\vec {\nabla }}f({\vec {x}}),{\vec {v}})_{canon}=df({\vec {x}}).{\vec {v}}} pour tout vecteur v {\displaystyle {\vec {v}}} . Notant ( α , β ) {\displaystyle (\alpha ,\beta )} les composantes de f ( x ) {\displaystyle {\vec {\nabla }}f({\vec {x}})} dans la base du système polaire, c'est-à-dire f ( x ) = α e 1 ( x ) + β e 2 ( x ) {\displaystyle {\vec {\nabla }}f({\vec {x}})=\alpha \,{\vec {e}}_{1}({\vec {x}})+\beta \,{\vec {e}}_{2}({\vec {x}})} , puis prenant successivement v = e 1 ( x ) {\displaystyle {\vec {v}}={\vec {e}}_{1}({\vec {x}})} puis v = e 2 ( x ) {\displaystyle {\vec {v}}={\vec {e}}_{2}({\vec {x}})} , on obtient α | | e 1 ( x ) | | 2 = d f ( x ) . e 1 ( x ) = f ρ ( x ) {\displaystyle \alpha \,||{\vec {e}}_{1}({\vec {x}})||^{2}=df({\vec {x}}).{\vec {e}}_{1}({\vec {x}})={\partial f \over \partial \rho }({\vec {x}})} puis β | | e 2 ( x ) | | 2 = d f ( x ) . e 2 ( x ) = f θ ( x ) {\displaystyle \beta \,||{\vec {e}}_{2}({\vec {x}})||^{2}=df({\vec {x}}).{\vec {e}}_{2}({\vec {x}})={\partial f \over \partial \theta }({\vec {x}})} , soit donc α = f ρ ( x ) {\displaystyle \alpha ={\partial f \over \partial \rho }({\vec {x}})} et β = 1 ρ 2 f θ ( x ) {\displaystyle \beta ={1 \over \rho ^{2}}\,{\partial f \over \partial \theta }({\vec {x}})} puisque | | e 2 ( x ) | | 2 = ρ 2 {\displaystyle ||{\vec {e}}_{2}({\vec {x}})||^{2}=\rho ^{2}} . Et donc f ( x ) = f ρ ( x ) e 1 ( x ) + 1 ρ 2 f θ ( x ) e 2 ( x ) {\displaystyle {\vec {\nabla }}f({\vec {x}})={\partial f \over \partial \rho }({\vec {x}})\,{\vec {e}}_{1}({\vec {x}})+{1 \over \rho ^{2}}\,{\partial f \over \partial \theta }({\vec {x}})\,{\vec {e}}_{2}({\vec {x}})} .

5- La base du système de coordonnées polaires n'est pas la base polaire choisie par les mécaniciens : ils lui préfèrent la base orthonormée ( e ρ ( x ) , e θ ( x ) ) {\displaystyle ({\vec {e}}_{\rho }({\vec {x}}),{\vec {e}}_{\theta }({\vec {x}}))} e ρ ( x ) = e 1 ( x ) = ( cos θ sin θ ) {\displaystyle {\vec {e}}_{\rho }({\vec {x}})={\vec {e}}_{1}({\vec {x}})={\begin{pmatrix}\cos \theta \\\sin \theta \end{pmatrix}}} et e θ ( x ) = e 2 ( x ) | | e 2 ( x ) | | = 1 ρ e 2 ( x ) = ( sin θ cos θ ) {\displaystyle {\vec {e}}_{\theta }({\vec {x}})={{\vec {e}}_{2}({\vec {x}}) \over ||{\vec {e}}_{2}({\vec {x}})||}={1 \over \rho }\,{\vec {e}}_{2}({\vec {x}})={\begin{pmatrix}-\sin \theta \\\cos \theta \end{pmatrix}}} .

D'où f ( x ) = f ρ ( x ) e ρ ( x ) + 1 ρ f θ ( x ) e θ ( x ) = ( f ρ ( x ) 1 ρ f θ ( x ) ) {\displaystyle {\vec {\nabla }}f({\vec {x}})={\partial f \over \partial \rho }({\vec {x}})\,{\vec {e}}_{\rho }({\vec {x}})+{1 \over \rho }\,{\partial f \over \partial \theta }({\vec {x}})\,{\vec {e}}_{\theta }({\vec {x}})={\begin{pmatrix}{\partial f \over \partial \rho }({\vec {x}})\\{1 \over \rho }\,{\partial f \over \partial \theta }({\vec {x}})\end{pmatrix}}} , expression usuelle du gradient en "coordonnées polaires", ou bien, si on préfère (sans abus de notation), f ( x ) = ( F ρ ( q ) 1 ρ F θ ( q ) ) {\displaystyle {\vec {\nabla }}f({\vec {x}})={\begin{pmatrix}{\partial F \over \partial \rho }({\vec {q}})\\{1 \over \rho }\,{\partial F \over \partial \theta }({\vec {q}})\end{pmatrix}}} , où on a posé F ( q ) = f ( x ) {\displaystyle F({\vec {q}})=f({\vec {x}})} quand x = ϕ ( q ) {\displaystyle {\vec {x}}={\vec {\phi }}({\vec {q}})} .

6- Exemple : f ( x ) = r tan θ {\displaystyle f({\vec {x}})=r\,\tan \theta } quand x = ( r cos θ , r sin θ ) {\displaystyle {\vec {x}}=(r\,\cos \theta ,r\,\sin \theta )} (avec donc r = x 2 + y 2 {\displaystyle r={\sqrt {x^{2}+y^{2}}}} et tan θ = y x {\displaystyle \tan \theta ={y \over x}} ). Ici F ( r , θ ) = r tan θ {\displaystyle F(r,\theta )=r\,\tan \theta } et donc

( F r ( q ) 1 r F θ ( q ) ) = ( tan θ 1 + tan 2 θ ) = f ( x ) {\displaystyle {\begin{pmatrix}{\partial F \over \partial r}({\vec {q}})\\{1 \over r}\,{\partial F \over \partial \theta }({\vec {q}})\end{pmatrix}}={\begin{pmatrix}\tan \theta \\1+\tan ^{2}\theta \end{pmatrix}}={\vec {\nabla }}f({\vec {x}})} , au point x = ( r cos θ , r sin θ ) {\displaystyle {\vec {x}}=(r\,\cos \theta ,r\,\sin \theta )} , dans la base polaire ( e ρ ( x ) , e θ ( x ) ) {\displaystyle ({\vec {e}}_{\rho }({\vec {x}}),{\vec {e}}_{\theta }({\vec {x}}))} des mécaniciens.
 

Exemple : force

En mécanique l'effort nécessaire pour déplacer un objet ponctuel est modélisé par le travail T {\displaystyle T} . Ce travail est une forme linéaire (fonction linéaire des déplacements), et cette forme linéaire est représentée par un vecteur force f {\displaystyle {\vec {f}}} (vecteur de représentation supposant implicitement l'emploi du produit scalaire euclidien) :

T ( u ) = ( f , u ) e u c l i d {\displaystyle T({\vec {u}})=({\vec {f}},{\vec {u}})_{euclid}} ,

u {\displaystyle {\vec {u}}} est un vecteur déplacement.

Si on dispose de n {\displaystyle n} objets ponctuels, chacun pouvant être déplacé de u i {\displaystyle {\vec {u}}_{i}} , la linéarité du travail s'exprime :

T ( u ) = i = 1 n ( f i , u i ) e u c l i d {\displaystyle T({\vec {u}})=\sum _{i=1}^{n}({\vec {f}}_{i},{\vec {u}}_{i})_{euclid}} ,

les vecteurs f i {\displaystyle {\vec {f}}_{i}} permettant de représenter le travail.

Et si on dispose d'un milieu continu déformable, la somme {\displaystyle \sum } s'écrit {\displaystyle \int } et le travail s'exprime :

T ( u ) = Ω ( f ( x ) , u ( x ) ) e u c l i d d Ω {\displaystyle T({\vec {u}})=\int _{\Omega }({\vec {f}}({\vec {x}}),{\vec {u}}({\vec {x}}))_{euclid}\,d\Omega } ,

où ici E {\displaystyle E} est par exemple l'ensemble des fonctions de carré intégrable, auquel cas T ( u ) = ( f , u ) L 2 {\displaystyle T({\vec {u}})=({\vec {f}},{\vec {u}})_{L^{2}}} . Dans ce dernier cas, f {\displaystyle {\vec {f}}} est une fonction à valeurs vectorielles représentant T {\displaystyle T} grâce à l'utilisation du produit scalaire de L 2 {\displaystyle L^{2}} .

Exposants et indices dans la notation des composantes (convention d'Einstein)

Les composantes d'un vecteur (contravariant) sont notées avec des exposants, comme dans [ x ] = ( x 1 x 2 ) {\displaystyle [{\vec {x}}]={\begin{pmatrix}x^{1}\\x^{2}\end{pmatrix}}} , alors que les composantes d'un vecteur covariant (une forme linéaire dans la base duale) sont notées avec des indices, comme dans [ ] = ( 1 2 ) {\displaystyle [\ell ]={\begin{pmatrix}\ell _{1}&\ell _{2}\end{pmatrix}}} . Rappelons (voir plus haut) que le calcul de ces composantes ne nécessite pas l'utilisation d'un produit scalaire, mais juste d'une base et de sa base duale.

Cette convention, dite d'Einstein, va d'ailleurs plus loin : écrire i x i {\displaystyle \displaystyle \ell _{i}x^{i}} signifie i = 1 n i x i {\displaystyle \sum _{i=1}^{n}\ell _{i}x^{i}}  : la sommation est sous-entendue.

On ne peut pas se retrouver avec des produits de type i x i {\displaystyle \ell ^{i}x^{i}} , car cela voudrait dire que l'on aurait utilisé implicitement un produit scalaire (lequel ?), or, dans la convention d'Einstein, un produit scalaire doit être exprimé explicitement .

Dans le cas des surfaces (ou plus généralement des variétés), les bases usuelles ne sont pas orthonormées (notion qui dépend d'un produit scalaire) : ce sont des bases ( e i | x ) i = 1 , . . . , n {\displaystyle ({\vec {e}}_{i}{\Biggr |}_{\vec {x}})_{i=1,...,n}} d'un système de coordonnées, bases qui varient avec le point où on se trouve.

Si on introduit un produit scalaire (plus généralement une métrique), le produit scalaire en un point est par exemple noté ( , ) g x {\displaystyle (\cdot ,\cdot )_{g_{\vec {x}}}} et est représenté par sa matrice dans cette base. Cette matrice est souvent notée [ g i j ( x ) ] {\displaystyle [g_{ij}({\vec {x}})]} , où donc g i j ( x ) = ( e i | x , e j | x ) g x {\displaystyle g_{ij}({\vec {x}})=({\vec {e}}_{i}{\Biggr |}_{\vec {x}},{\vec {e}}_{j}{\Biggr |}_{\vec {x}})_{g_{\vec {x}}}} (produit scalaire en un point de deux vecteurs de base).

Ainsi le passage `covariant' {\displaystyle \rightarrow } `covecteur contravariant' est explicite et non ambigu avec la convention d'Einstein : ( v ) = j j v j = ( g , v ) g = i j i g i j v j {\displaystyle \ell ({\vec {v}})=\sum _{j}\ell _{j}v^{j}=({\vec {\ell }}_{g},{\vec {v}})_{g}=\sum _{ij}\ell ^{i}g_{ij}v^{j}} et la relation entre les composantes covariantes i {\displaystyle \ell _{i}} et les composantes i {\displaystyle \ell ^{i}} (du vecteur g {\displaystyle {\vec {\ell }}_{g}} représentant {\displaystyle \ell } ) est explicite : j = i i g i j {\displaystyle \ell _{j}=\sum _{i}\ell ^{i}g_{ij}} avec cohérence des positions des indices et exposants et visibilité du produit scalaire. De même i = j g i j j {\displaystyle \ell ^{i}=\sum _{j}g^{ij}\ell _{j}} .

Références

  • icône décorative Portail des mathématiques