W czasach globalizacji i dominacji języków międzynarodowych proces wymierania zagrożonych języków postępuje coraz szybciej. To ogromny problem, bo języki to skarbnice historii, tradycji i sposobu myślenia o świecie. Czy można jakoś zapobiec temu procesowi? Czy technologia może nam w tym pomóc?
W niniejszym tekście przyjrzymy się temu, czym są języki zagrożone wymarciem i czy jest sposób na to, aby je uratować.
Czym są języki zagrożone wymarciem?
Język zagrożony wymarciem to taki, który wykazuje spadek liczby użytkowników. W zależności od sposobu kategoryzowania wyróżnia się języki od potencjalnie zagrożonych (np. walijski, szkocki gaelicki czy kaszubski) do wymarłych (np. łaciński). Szczególnie istotnym czynnikiem jest tzw. transmisja pokoleniowa, czyli to, czy język używany jest przez młode pokolenie. Stopień zagrożenia języka znacznie maleje, jeśli dzieci danej społeczności potrafią się nim posługiwać. Natomiast język z nawet dziesiątkami tysięcy użytkowników może być wysoce zagrożony, jeśli dzieci przestają się go uczyć.
Ile jest języków zagrożonych? Ciężko o jednoznaczną odpowiedź. Według jednego z najbardziej znanych językoznawców, Davida Crystala, zaledwie 600 spośród ok. 6000 języków na świecie nie jest w żadnym stopniu zagrożonych. Jednak Atlas Zagrożonych Języków UNESCO podaje liczbę ok. 2500 języków w różnym stopniu zagrożenia. Większość z nich to języki plemienne, używane przez kilka tysięcy, kilkaset lub nawet kilkadziesiąt osób, głównie w Azji i Afryce. Jednak nawet tak blisko jak w Polsce występują języki zagrożone, np. kaszubski i wilamowski.
Od wielu lat lingwiści, naukowcy, jak i użytkownicy języków zagrożonych pracują nad sposobem ich zachowania. We współczesnych czasach naturalnie nasuwa się pytanie: czy technologia może nam pomóc? Odpowiedź brzmi: tak, i to na wiele sposobów.
Jak technologia może pomóc?
Najbardziej powszechnym zastosowaniem technologii jest pomoc przy dokumentacji. Wszelkie bazy danych stają się coraz łatwiejsze do przechowywania, badania oraz replikowania. Dzięki automatyzacji cały proces jest znacznie usprawniony – AI transkrybuje nagrania, tłumaczy teksty czy nawet generuje słowniki. Może również pomóc w tworzeniu interaktywnych materiałów edukacyjnych – aplikacji i gier, które zachęcą młodsze pokolenia do nauki języka. Przykładem takich inicjatyw są serwisy jak Duolingo czy Memrise, które oferują kursy języków rzadkich za darmo.
Celem archiwów językowych jest spisanie i udostępnienie materiałów. Zajmuje się tym wiele organizacji, np. Endangered Languages Archive (ELAR). To cyfrowe repozytorium multimedialne przechowujące zasoby dotyczące zagrożonych języków; dostępne dla społeczności językowych czy naukowców. Za to Endangered Languages Documentation Programme (ELDP) finansuje działania dokumentacyjne: nagrania audio-wideo, archiwizację rozmów, rytuałów czy wiedzy praktycznej. Materiały są umieszczane w archiwum i udostępniane darmowo.
Jednak cyfrowe archiwa to nie wszystko. Dzięki systemom automatycznej transkrypcji i coraz doskonalszym algorytmom analizy języka możliwe jest utrwalenie pełnego brzmienia mowy – jej akcentów, rytmu, melodii i intonacji, czyli elementów, których nie da się w pełni oddać jedynie w zapisie tekstowym. Równocześnie gromadzone są dane uwzględniające semantykę kulturową – charakterystyczne metafory, sposoby opisywania rzeczywistości, a nawet subtelne różnice w postrzeganiu świata.
Wiele z tych zasobów używanych jest w ramach NLP (ang. natural language processing) – dziedziny zajmującej się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer.
Generative AI i modele językowe (LLM) znacznie obniżają koszty tworzenia materiałów językowych, ale wymagają nadzoru społeczności dla zachowania autentyczności. Narzędzia te zostały pomyślnie wykorzystane przy projekcie NushuRescue. Polegał on na przywróceniu języka pisma Nüshu przy pomocy modelu językowego z zaledwie 35 przykładowymi zdaniami. Mimo wyzwań osiągnięto satysfakcjonujące wyniki tłumaczeń, co nie byłoby możliwe bez sztucznej inteligencji.
Inną udaną inicjatywą jest dodanie 110 nowych języków do systemu tłumaczeń Google, m.in. języków Dyula czy Wolof, w ramach czego zbudowano również modele do rozpoznawania mowy. Danielle Boyer, robotystka z Michigan, zbudowała robota mówiącego Anishinaabemowin o nazwie Skobot. Może on słuchać wypowiedzi w zagrożonym języku Anishinaabemowin (języku plemienia Anishinaabe) i odpowiadać na nie, a jego oprogramowanie, kształt i dekoracje są dopasowane do potrzeb dzieci. Powstała też awangardowa aplikacja Aikuma, pozwalająca na nagrywanie mowy i tłumaczenie konsekutywne – użyteczna w terenowych warunkach dla społeczności nieposługujących się systemem pisma.
Coraz popularniejsze stają się programy rewitalizacyjne, często nazywane „gniazdami językowymi” (ang. language nests), gdzie dzieci od najmłodszych lat uczą się w języku przodków. Powstały one w Nowej Zelandii w latach 80. jako próba odrodzenia języka maoryskiego w tym kraju. W gnieździe językowym, najczęściej funkcjonującym jako przedszkole, starsi użytkownicy języka biorą udział w edukacji dzieci poprzez międzypokoleniowy transfer języka.
Jakie są ograniczenia?
Sztuczna inteligencja nie jest jednak rozwiązaniem idealnym. Nie potrafi ona uchwycić niuansów kulturowych, emocji i ludzkiego doświadczenia, które są podstawą wszystkich języków.
Przy językach rzadkich częstym wyzwaniem jest też niedobór materiałów źródłowych do uczenia AI. Nowoczesne narzędzia (np. translatory, syntezatory mowy, modele językowe) wymagają ogromnych ilości danych. W przypadku języków dominujących (angielski, chiński, hiszpański) za podstawy służą miliardy tekstów, nagrań i transkrypcji. Jednak w językach zagrożonych często istnieje tylko kilkaset nagrań rozmów, fragmentaryczne słowniki, spisane opowieści ustne lub materiały lingwistyczne w małych archiwach. AI trudno trenować na tak niewielkim korpusie. Modele bywają wtedy niedokładne, popełniają błędy gramatyczne albo generują sztuczne konstrukcje, które nie są zgodne z naturalnym językiem, co jest równie szkodliwe jak wymieranie języka.
Ograniczenia nie kończą się na tym. W społecznościach lokalnych nierzadki jest nierówny dostęp do technologii, co może oznaczać, że dzieci danej kultury nie będą miały możliwości skorzystania z przygotowanych materiałów. Według danych ITU (International Telecommunication Union) z 2023 r. ok. 2,6 miliarda ludzi na świecie nadal nie ma dostępu do Internetu, a zdecydowana większość z nich mieszka w regionach wiejskich i krajach rozwijających się. Właśnie tam często używa się języków zagrożonych. W efekcie technologie dokumentacyjne pozostają niedostępne dla wielu osób, które są jedynymi żywymi użytkownikami danego języka.
Podsumowanie
Dynamiczny rozwój technologii cyfrowych otwiera drzwi na wiele nowych możliwości dla języków na granicy wymarcia. Dzięki systemom opartym na sztucznej inteligencji, takim jak NLP czy LLM, możliwe stają się automatyczna transkrypcja, tłumaczenia, a nawet generowanie treści w językach, które dotąd praktycznie nie istniały w przestrzeni wirtualnej. Na całym świecie prowadzone są liczne inicjatywy, które łączą lokalne społeczności, instytucje akademickie i sektor technologiczny. Każdy, nawet najmniejszy sukces – czy to uruchomienie kursu języka w aplikacji, czy stworzenie cyfrowego archiwum nagrań – ma ogromne znaczenie, ponieważ przywraca język do życia i daje mu szansę na funkcjonowanie w przyszłości.
Oczywiście takie działania nie są w stanie powstrzymać globalnych przemian – migracji, urbanizacji czy dominacji języków międzynarodowych. Proces zanikania mniejszych systemów językowych będzie postępował. Jednak dzięki cyfrowej dokumentacji przyszłe pokolenia mogą otrzymać unikalne archiwum, swoistą pamięć językową ludzkości, która pozwoli badać i przywracać elementy kultury, jakie inaczej zniknęłyby bezpowrotnie. Technologia staje się pewnego rodzaju mostem pomiędzy nieuchronnością zmian współczesnego wieku a odpowiedzialnością za dziedzictwo kulturowe – nie zatrzymuje historii, ale czyni ją bogatszą i bardziej dostępną.