Traducció automàtica neuronal

La traducció automàtica neuronal (NMT) és un enfocament de la traducció automàtica que utilitza una xarxa neuronal artificial per predir la probabilitat d'una seqüència de paraules, normalment modelant frases senceres en un únic model integrat.[1]

És l'enfocament dominant avui i pot produir traduccions que rivalitzin amb les traduccions humanes quan es tradueix entre idiomes d'alts recursos en condicions específiques. No obstant això, encara queden reptes, especialment amb idiomes on hi ha menys dades d'alta qualitat disponibles, i amb el canvi de domini entre les dades en què s'ha entrenat un sistema i els textos que se suposa que ha de traduir. Els sistemes NMT també solen produir traduccions bastant literals.[2]

Visió general

A la tasca de traducció, una frase x = x 1 , I {\displaystyle \mathbf {x} =x_{1,I}} (constituït per I {\displaystyle I} fitxes x i {\displaystyle x_{i}} ) en la llengua d'origen s'ha de traduir a una frase y = x 1 , J {\displaystyle \mathbf {y} =x_{1,J}} (constituït per J {\displaystyle J} fitxes x j {\displaystyle x_{j}} ) en la llengua d'arribada. Els vectors de fitxes d'origen i de destinació (que en l'esdeveniment simple s'utilitzen els uns per als altres per a un joc en particular], de manera que es puguin processar matemàticament.[3]

Els models NMT assignen una probabilitat P ( y | x ) {\displaystyle P(y|x)} a traduccions potencials y i després cerqueu un subconjunt de traduccions potencials per a la que tingui més probabilitat. La majoria dels models NMT són autorregressius: modelen la probabilitat de cada testimoni objectiu en funció de la frase font i els testimonis objectiu predits anteriorment. Aleshores, la probabilitat de tota la traducció és el producte de les probabilitats de les fitxes predites individuals:

P ( y | x ) = j = 1 J P ( y j | y 1 , i 1 , x ) {\displaystyle P(y|x)=\prod _{j=1}^{J}P(y_{j}|y_{1,i-1},\mathbf {x} )} Els models NMT es diferencien en com modelen exactament aquesta funció P {\displaystyle P} , però la majoria utilitzen alguna variació de l'arquitectura codificador-descodificador: Primer utilitzen una xarxa de codificadors per processar x {\displaystyle \mathbf {x} } i codificar-lo en una representació vectorial o matricial de la frase font. A continuació, utilitzen una xarxa descodificadora que normalment produeix una paraula objectiu alhora, tenint en compte la representació d'origen i les fitxes que produïa anteriorment. Tan bon punt el descodificador produeix un testimoni especial de final de frase, el procés de descodificació finalitza. Com que el descodificador fa referència a les seves pròpies sortides anteriors durant, aquesta forma de descodificació s'anomena auto-regressiva.[4]

Història

Aproximacions primerenques

L'any 1987, Robert B. Allen va demostrar l'ús de xarxes neuronals directes per traduir frases en anglès generades automàticament amb un vocabulari limitat de 31 paraules a l'espanyol. En aquest experiment, es va triar que la mida de les capes d'entrada i sortida de la xarxa fos prou gran per a les frases més llargues en l'idioma d'origen i de destinació, respectivament, perquè la xarxa no tenia cap mecanisme per codificar seqüències de longitud arbitrària en un format fix. -Representació de la mida. En el seu resum, Allen també ja va insinuar la possibilitat d'utilitzar models autoassociatius, un per codificar la font i un altre per descodificar l'objectiu.

Enfocaments híbrids

Durant l'època en què predominava la traducció automàtica estadística, alguns treballs utilitzaven mètodes neuronals per substituir diverses parts de la traducció automàtica estadística mentre encara utilitzaven l'enfocament log-lineal per unir-los. Per exemple, en diversos treballs conjuntament amb altres investigadors, Holger Schwenk va substituir el model de llenguatge n-gram habitual per un de neuronal i va estimar les probabilitats de traducció de frases utilitzant una xarxa de feed-forward.

seq2seq

El 2013 i el 2014, la traducció automàtica neuronal d'extrem a extrem va tenir el seu avenç amb Kalchbrenner & Blunsom utilitzant una xarxa neuronal convolucional (CNN) per codificar la font i tant Cho et al. i Sutskever et al. utilitzant una xarxa neuronal recurrent (RNN). Tots tres van utilitzar un RNN condicionat a una codificació fixa de la font com a descodificador per produir la traducció. No obstant això, aquests models van tenir un mal rendiment en frases llargues. Aquest problema es va abordar quan Bahdanau et al. va posar atenció a la seva arquitectura codificador-descodificador: a cada pas de descodificació, l'estat del descodificador s'utilitza per calcular una representació de la font que se centra en diferents parts de la font i utilitza aquesta representació en el càlcul de les probabilitats per al següent testimoni. Basant-se en aquestes arquitectures basades en RNN, Baidu va llançar el "primer sistema NMT a gran escala" el 2015, seguit de Google Neural Machine Translation el 2016. A partir d'aquell any, els models neuronals també es van convertir en l'opció predominant a la principal conferència de traducció automàtica Workshop on Statistical Machine Translation.

Transformador

Una altra arquitectura de xarxa que es presta a la paral·lelització és el transformador, que va ser introduït per Vaswani et al. també el 2017. Igual que els models anteriors, el transformador encara utilitza el mecanisme d'atenció per ponderar la sortida del codificador per als passos de descodificació. Tanmateix, les xarxes codificadores i descodificadores del transformador també es basen en l'atenció en lloc de la recurrència o la convolució: cada capa pesa i transforma la sortida de la capa anterior en un procés anomenat autoatenció. Com que el mecanisme d'atenció no té cap noció d'ordre de testimoni, però l'ordre de les paraules en una frase és òbviament rellevant, les incrustacions de testimoni es combinen amb una codificació explícita de la seva posició a l'oració. Com que tant el codificador com el descodificador del transformador estan lliures d'elements recurrents, tots dos es poden paral·lelitzar durant l'entrenament. No obstant això, el descodificador del transformador original encara és auto-regressiu, la qual cosa significa que la descodificació encara s'ha de fer un testimoni alhora durant la inferència.

Referències

  1. «A Gentle Introduction to Neural Machine Translation» (en anglès). [Consulta: 24 agost 2010].
  2. «Neural machine translation with a Transformer and Keras | Text» (en anglès). [Consulta: 10 agost 2024].
  3. Tan, Zhixing; Wang, Shuo; Yang, Zonghan; Chen, Gang; Huang, Xuancheng «Neural machine translation: A review of methods, resources, and tools». AI Open, 1, 01-01-2020, pàg. 5–21. DOI: 10.1016/j.aiopen.2020.11.001. ISSN: 2666-6510.
  4. «Neural Machine Translation by Jointly Learning to Align and Translate» (en anglès). [Consulta: 10 agost 2024].