Neuronowe tłumaczenie maszynowe – jeszcze bliższe ludzkiemu myśleniu

Tłumaczenie maszynowe (ang. machine translation – MT) funkcjonuje na rynku od kilkudziesięciu lat. Pierwszym skutecznie działającym rozwiązaniem z obszaru MT było tzw. tłumaczenie maszynowe oparte na regułach (ang. rule-based machine translation – RBMT), którego początki sięgają lat 50. XX wieku. Rozwiązania typu RBMT odeszły w przeszłość, gdy w latach 90. udoskonalono rozwiązania typu statystycznego (ang. statistical machine translation – SMT). Jeden z opracowanych wówczas wariantów SMT, tzw. tłumaczenie maszynowe oparte na frazach, dominuje w usługach tłumaczeniowych online do dnia dzisiejszego.

W roku 2014 na arenę usług językowych wkroczyło neuronowe tłumaczenie maszynowe (ang. neural machine translation – NMT), zwiastując potencjalną rewolucję. Wynika to z faktu, że sposób działania rozwiązań opartych na NMT różni się zasadniczo od dotychczasowych technologii, niełatwo więc przewidzieć, w jaki sposób ewoluuje w miarę stosowania. Na blogu Systran, w artykule stanowiącym próbę szczegółowego opisu sposobu działania rozwiązań NMT*, technologia ta opisywana jest jako „tajemnicza” – częściowo dlatego, że jest skomplikowana i trudna do wytłumaczenia. Systemy NMT samodzielnie wyszukują swoje wzorce działania – nie potrzebują w tym względzie dokładnych instrukcji, zaś kiedy przyjrzymy się warstwom procesu przetwarzania, bardzo trudno jest zorientować się, w jaki sposób system tak naprawdę podejmuje decyzje.

Zasada działania SMT polega na porównywaniu tzw. n-gramów w tekście źródłowym – grup zawierających po 6 słów – z możliwościami dopasowań w języku docelowym. NMT natomiast buduje swoje zbiory danych i metody w procesach głębokiego uczenia się, które – jak wskazuje sama nazwa NMT – przypominają nieco działanie biologicznych sieci neuronowych w mózgach zwierząt. Działanie systemów NMT opiera się zatem nie tyle na programowaniu zadaniowym, ile na rozwiązywaniu problemów w drodze poszukiwania powiązań na podstawie dostępnych przykładów.

Systemy NMT działają, opierając się na wydajnych procesorach graficznych (GPU), i w porównaniu z SMT wykorzystują zaledwie ułamek pamięci procesorów głównych. Jednak proces uczenia takich systemów jest, jak podaje Google: „kosztowny obliczeniowo”**.

Technologia NMT ma również inne wady: nie radzi sobie dobrze z rzadkimi słowami, co znacznie zmniejsza jej efektywność. Jednak, jak wynika z raportu Google, w przypadku odrębnych, prostych zdań system NMT stosowany przez Google „pozwala zmniejszyć ilość błędów w tłumaczeniu o średnio 60% w stosunku do systemu opartego na frazach”**.

Obecnie na rynku dostępne są cztery systemy NMT: Google Translate, Microsoft Translator, Systran Pure Neural Machine Translation oraz system NMT typu open source: OpenNMT, oferowany przez grupę Harvard NLP. Ponieważ bardziej zaawansowane systemy tłumaczenia maszynowego, z których korzystają dostawcy usług językowych, obejmują już rozwiązania NMT, mogą być Państwo pewni, że Skrivanek będzie na bieżąco informować Państwa o nowych możliwościach technologicznych w tym obszarze.

* blog.systransoft.com: How Does Neural Machine Translation Work? (Jak działa neuronowe tłumaczenie maszynowe?), 17 października 2016 r.

** Raport Google 2016