Uczenie maszynowe poprawia możliwości transkrypcji mowy w języku arabskim

Dostarczone przez Fundacja katarska





Dzięki postępom w przetwarzaniu mowy i języka naturalnego jest nadzieja, że ​​pewnego dnia będziesz mógł zapytać swojego wirtualnego asystenta, jakie są najlepsze składniki sałatki. Obecnie możliwe jest poproszenie domowego gadżetu o odtwarzanie muzyki lub otwarcie za pomocą polecenia głosowego, co jest już dostępne w wielu urządzeniach.

Jeśli mówisz po marokańskim, algierskim, egipskim, sudańskim lub jakimkolwiek innym dialekcie języka arabskiego, który jest niezmiernie zróżnicowany w zależności od regionu, gdzie niektóre z nich są wzajemnie niezrozumiałe, to jest to inna historia. Jeśli Twoim językiem ojczystym jest arabski, fiński, mongolski, navajo lub jakikolwiek inny język o wysokim poziomie złożoności morfologicznej, możesz czuć się pominięty.



Te złożone konstrukty zaintrygowały Ahmeda Ali, aby znaleźć rozwiązanie. Jest głównym inżynierem w grupie zajmującej się technologiami języka arabskiego w Katar Computing Research Institute (QCRI) – części Uniwersytetu Hamad Bin Khalifa przy Katarze i założycielem ArabicSpeech, społeczności, która istnieje na rzecz arabskiej nauki mowy i technologii mowy.

Siedziba Fundacji Katar

Ali został urzeczony pomysłem rozmawiania z samochodami, urządzeniami i gadżetami wiele lat temu, gdy był w IBM. Czy możemy zbudować maszynę zdolną do rozumienia różnych dialektów — egipskiego pediatrę, który zautomatyzuje receptę, syryjskiego nauczyciela, który pomoże dzieciom w zdobyciu najważniejszych części z lekcji, czy marokańskiego kucharza opisującego najlepszy przepis na kuskus? stwierdza. Jednak algorytmy, które zasilają te maszyny, nie mogą przeszukiwać około 30 odmian arabskiego, nie mówiąc już o nadaniu im sensu. Obecnie większość narzędzi do rozpoznawania mowy działa tylko w języku angielskim i kilku innych językach.



Pandemia koronawirusa dodatkowo podsyciła i tak już nasilające się poleganie na technologiach głosowych, w których sposób, w jaki technologie przetwarzania języka naturalnego pomogły ludziom przestrzegać wytycznych dotyczących pozostawania w domu i środków dystansowania fizycznego. Jednak chociaż używamy poleceń głosowych do wspomagania zakupów w e-commerce i zarządzania naszymi domami, przyszłość przyniesie jeszcze więcej zastosowań.

Miliony ludzi na całym świecie korzystają z masowych otwartych kursów online (MOOC) ze względu na ich otwarty dostęp i nieograniczony udział. Rozpoznawanie mowy to jedna z głównych funkcji w MOOC, dzięki której studenci mogą wyszukiwać w określonych obszarach mówionych treści kursów i umożliwiać tłumaczenia za pomocą napisów. Technologia mowy umożliwia digitalizację wykładów w celu wyświetlania wypowiadanych słów jako tekstu w salach uniwersyteckich.

Ahmed Ali, Uniwersytet Hamada Bin Kahlify



Według niedawnego artykułu w magazynie Speech Technology prognozuje się, że do 2025 r. rynek rozpoznawania głosu i mowy osiągnie 26,8 miliarda dolarów, ponieważ miliony konsumentów i firm na całym świecie zaczynają polegać na botach głosowych nie tylko w zakresie interakcji ze swoimi urządzeniami lub samochodami, ale również w celu poprawy obsługi klienta, wprowadzania innowacji w opiece zdrowotnej oraz poprawy dostępności i inkluzywności osób z zaburzeniami słuchu, mowy lub motoryki.

W badaniu z 2019 r. Capgemini prognozuje, że do 2022 r. ponad dwóch na trzech konsumentów wybierze asystentów głosowych zamiast wizyt w sklepach lub oddziałach bankowych; udział, który mógłby słusznie wzrosnąć, biorąc pod uwagę domowe, fizycznie oddalone życie i handel, które epidemia wymusiła na świecie od ponad półtora roku.

Niemniej jednak te urządzenia nie są w stanie dostarczyć do ogromnych obszarów globu. Dla tych 30 typów języka arabskiego i milionów ludzi jest to znacznie stracona szansa.



Arabski dla maszyn

Anglojęzyczne lub francuskojęzyczne boty głosowe są dalekie od ideału. Jednak nauczenie maszyn rozumienia arabskiego jest szczególnie trudne z kilku powodów. Oto trzy powszechnie rozpoznawane wyzwania:

  1. Brak znaków diakrytycznych. Dialekty arabskie są w języku narodowym, jak w języku głównie używanym. Większość dostępnego tekstu jest niediakrytyzowane, co oznacza, że ​​brakuje w nim akcentów, takich jak ostry (´) lub grób (`), które wskazują wartości dźwiękowe liter. Dlatego trudno jest określić, dokąd zmierzają samogłoski.
  2. Brak środków. Brakuje oznaczonych danych dla różnych dialektów arabskich. Łącznie brakuje im ustandaryzowanych reguł ortograficznych, które dyktują sposób pisania w języku, w tym norm lub pisowni, dzielenia wyrazów, łamania wyrazów i nacisku. Zasoby te mają kluczowe znaczenie dla uczenia modeli komputerowych, a fakt, że jest ich zbyt mało, hamuje rozwój rozpoznawania mowy w języku arabskim.
  3. Złożoność morfologiczna. Osoby posługujące się językiem arabskim często przełączają kody. Na przykład na obszarach skolonizowanych przez Francuzów — w Afryce Północnej, Maroku, Algierii i Tunezji — dialekty zawierają wiele zapożyczonych francuskich słów. W związku z tym istnieje duża liczba tak zwanych słów poza słownictwem, których technologie rozpoznawania mowy nie mogą pojąć, ponieważ nie są to słowa arabskie.

Ale pole porusza się z prędkością błyskawicy, mówi Ali. Jest to wspólny wysiłek wielu badaczy, aby uczynić go jeszcze szybszym. Laboratorium technologii języka arabskiego Ali prowadzi projekt ArabicSpeech, aby połączyć tłumaczenia arabskie z dialektami, które są rodzime dla każdego regionu. Na przykład dialekty arabskie można podzielić na cztery dialekty regionalne: północnoafrykański, egipski, zatokowy i lewantyński. Jednak biorąc pod uwagę, że dialekty nie są zgodne z granicami, może to być tak drobnoziarniste, jak jeden dialekt na miasto; na przykład native speaker z Egiptu potrafi odróżnić swój dialekt aleksandryjski od swojego rodaka z Asuanu (na mapie odległość 1000 km).

Budowanie zaawansowanej technologicznie przyszłości dla wszystkich

W tym momencie maszyny są mniej więcej tak dokładne, jak transkrypcje ludzi, w dużej mierze dzięki postępom w głębokich sieciach neuronowych, poddziedzinie uczenia maszynowego w sztucznej inteligencji, która opiera się na algorytmach inspirowanych biologicznym i funkcjonalnym działaniem ludzkiego mózgu. Jednak do niedawna rozpoznawanie mowy było nieco zhakowane. Technologia ma historię polegającą na różnych modułach do modelowania akustycznego, budowania leksykonów wymowy i modelowania języka; wszystkie moduły, które należy przeszkolić osobno. Niedawno naukowcy szkolili modele, które przekształcają cechy akustyczne bezpośrednio w transkrypcje tekstu, potencjalnie optymalizując wszystkie części pod kątem końcowego zadania.

Mimo tych postępów Ali nadal nie może wydawać poleceń głosowych większości urządzeń w swoim ojczystym języku arabskim. Jest rok 2021 i nadal nie mogę rozmawiać z wieloma maszynami w moim dialekcie – komentuje. Mam na myśli to, że teraz mam urządzenie, które rozumie mój angielski, ale rozpoznawanie maszynowe mowy arabskiej w wielu dialektach jeszcze się nie wydarzyło.

Dokonanie tego jest celem pracy Ali, której kulminacją był pierwszy transformator do rozpoznawania mowy arabskiej i jej dialektów; taki, który osiągnął niezrównaną wydajność. Technologia ta, nazwana QCRI Advanced Transcription System, jest obecnie wykorzystywana przez nadawców Al-Jazeera, DW i BBC do transkrypcji treści online.

Istnieje kilka powodów, dla których Ali i jego zespół odnieśli sukces w budowaniu tych silników mowy. Przede wszystkim, mówi, istnieje potrzeba posiadania zasobów we wszystkich dialektach. Musimy zgromadzić zasoby, aby móc następnie trenować model. Postępy w przetwarzaniu komputerowym oznaczają, że intensywne obliczeniowo uczenie maszynowe odbywa się teraz na procesorze graficznym, który może szybko przetwarzać i wyświetlać złożoną grafikę. Jak mówi Ali: Mamy świetną architekturę, dobre moduły i mamy dane, które reprezentują rzeczywistość.

Naukowcy z QCRI i Kanari AI niedawno zbudowali modele, które mogą osiągnąć parytet między ludźmi w arabskich wiadomościach telewizyjnych. System demonstruje wpływ dodawania napisów do codziennych raportów Aljazeera. Podczas gdy angielski wskaźnik błędów ludzkich (HER) wynosi około 5,6%, badania wykazały, że arabski HER jest znacznie wyższy i może osiągnąć 10% ze względu na złożoność morfologiczną języka i brak standardowych reguł ortograficznych w dialektalnym języku arabskim. Dzięki najnowszym postępom w zakresie głębokiego uczenia i kompleksowej architektury, arabski aparat rozpoznawania mowy przewyższa native speakerów w nadawanych wiadomościach.

Podczas gdy rozpoznawanie mowy w języku współczesnym standardu arabskiego wydaje się działać dobrze, naukowcy z QCRI i Kanari AI są zajęci testowaniem granic przetwarzania dialektalnego i osiąganiem doskonałych wyników. Ponieważ nikt nie mówi w domu w języku Modern Standard Arabski, dbałość o dialekt jest tym, czego potrzebujemy, aby nasi asystenci głosowi mogli nas zrozumieć.

Ta treść została napisana przez Katarski Instytut Badawczy Informatyki , Hamad Bin Khalifa University, członek Fundacji Kataru. Nie została napisana przez redakcję MIT Technology Review.

ukryć