211service.com
Uczenie maszynowe poprawia możliwości transkrypcji mowy w języku arabskim
Dostarczone przez Fundacja katarska
Dzięki postępom w przetwarzaniu mowy i języka naturalnego jest nadzieja, że pewnego dnia będziesz mógł zapytać swojego wirtualnego asystenta, jakie są najlepsze składniki sałatki. Obecnie możliwe jest poproszenie domowego gadżetu o odtwarzanie muzyki lub otwarcie za pomocą polecenia głosowego, co jest już dostępne w wielu urządzeniach.
Jeśli mówisz po marokańskim, algierskim, egipskim, sudańskim lub jakimkolwiek innym dialekcie języka arabskiego, który jest niezmiernie zróżnicowany w zależności od regionu, gdzie niektóre z nich są wzajemnie niezrozumiałe, to jest to inna historia. Jeśli Twoim językiem ojczystym jest arabski, fiński, mongolski, navajo lub jakikolwiek inny język o wysokim poziomie złożoności morfologicznej, możesz czuć się pominięty.
Te złożone konstrukty zaintrygowały Ahmeda Ali, aby znaleźć rozwiązanie. Jest głównym inżynierem w grupie zajmującej się technologiami języka arabskiego w Katar Computing Research Institute (QCRI) – części Uniwersytetu Hamad Bin Khalifa przy Katarze i założycielem ArabicSpeech, społeczności, która istnieje na rzecz arabskiej nauki mowy i technologii mowy.

Siedziba Fundacji Katar
Ali został urzeczony pomysłem rozmawiania z samochodami, urządzeniami i gadżetami wiele lat temu, gdy był w IBM. Czy możemy zbudować maszynę zdolną do rozumienia różnych dialektów — egipskiego pediatrę, który zautomatyzuje receptę, syryjskiego nauczyciela, który pomoże dzieciom w zdobyciu najważniejszych części z lekcji, czy marokańskiego kucharza opisującego najlepszy przepis na kuskus? stwierdza. Jednak algorytmy, które zasilają te maszyny, nie mogą przeszukiwać około 30 odmian arabskiego, nie mówiąc już o nadaniu im sensu. Obecnie większość narzędzi do rozpoznawania mowy działa tylko w języku angielskim i kilku innych językach.
Pandemia koronawirusa dodatkowo podsyciła i tak już nasilające się poleganie na technologiach głosowych, w których sposób, w jaki technologie przetwarzania języka naturalnego pomogły ludziom przestrzegać wytycznych dotyczących pozostawania w domu i środków dystansowania fizycznego. Jednak chociaż używamy poleceń głosowych do wspomagania zakupów w e-commerce i zarządzania naszymi domami, przyszłość przyniesie jeszcze więcej zastosowań.
Miliony ludzi na całym świecie korzystają z masowych otwartych kursów online (MOOC) ze względu na ich otwarty dostęp i nieograniczony udział. Rozpoznawanie mowy to jedna z głównych funkcji w MOOC, dzięki której studenci mogą wyszukiwać w określonych obszarach mówionych treści kursów i umożliwiać tłumaczenia za pomocą napisów. Technologia mowy umożliwia digitalizację wykładów w celu wyświetlania wypowiadanych słów jako tekstu w salach uniwersyteckich.

Ahmed Ali, Uniwersytet Hamada Bin Kahlify
Według niedawnego artykułu w magazynie Speech Technology prognozuje się, że do 2025 r. rynek rozpoznawania głosu i mowy osiągnie 26,8 miliarda dolarów, ponieważ miliony konsumentów i firm na całym świecie zaczynają polegać na botach głosowych nie tylko w zakresie interakcji ze swoimi urządzeniami lub samochodami, ale również w celu poprawy obsługi klienta, wprowadzania innowacji w opiece zdrowotnej oraz poprawy dostępności i inkluzywności osób z zaburzeniami słuchu, mowy lub motoryki.
W badaniu z 2019 r. Capgemini prognozuje, że do 2022 r. ponad dwóch na trzech konsumentów wybierze asystentów głosowych zamiast wizyt w sklepach lub oddziałach bankowych; udział, który mógłby słusznie wzrosnąć, biorąc pod uwagę domowe, fizycznie oddalone życie i handel, które epidemia wymusiła na świecie od ponad półtora roku.
Niemniej jednak te urządzenia nie są w stanie dostarczyć do ogromnych obszarów globu. Dla tych 30 typów języka arabskiego i milionów ludzi jest to znacznie stracona szansa.
Arabski dla maszyn
Anglojęzyczne lub francuskojęzyczne boty głosowe są dalekie od ideału. Jednak nauczenie maszyn rozumienia arabskiego jest szczególnie trudne z kilku powodów. Oto trzy powszechnie rozpoznawane wyzwania:
- Brak znaków diakrytycznych. Dialekty arabskie są w języku narodowym, jak w języku głównie używanym. Większość dostępnego tekstu jest niediakrytyzowane, co oznacza, że brakuje w nim akcentów, takich jak ostry (´) lub grób (`), które wskazują wartości dźwiękowe liter. Dlatego trudno jest określić, dokąd zmierzają samogłoski.
- Brak środków. Brakuje oznaczonych danych dla różnych dialektów arabskich. Łącznie brakuje im ustandaryzowanych reguł ortograficznych, które dyktują sposób pisania w języku, w tym norm lub pisowni, dzielenia wyrazów, łamania wyrazów i nacisku. Zasoby te mają kluczowe znaczenie dla uczenia modeli komputerowych, a fakt, że jest ich zbyt mało, hamuje rozwój rozpoznawania mowy w języku arabskim.
- Złożoność morfologiczna. Osoby posługujące się językiem arabskim często przełączają kody. Na przykład na obszarach skolonizowanych przez Francuzów — w Afryce Północnej, Maroku, Algierii i Tunezji — dialekty zawierają wiele zapożyczonych francuskich słów. W związku z tym istnieje duża liczba tak zwanych słów poza słownictwem, których technologie rozpoznawania mowy nie mogą pojąć, ponieważ nie są to słowa arabskie.
Ale pole porusza się z prędkością błyskawicy, mówi Ali. Jest to wspólny wysiłek wielu badaczy, aby uczynić go jeszcze szybszym. Laboratorium technologii języka arabskiego Ali prowadzi projekt ArabicSpeech, aby połączyć tłumaczenia arabskie z dialektami, które są rodzime dla każdego regionu. Na przykład dialekty arabskie można podzielić na cztery dialekty regionalne: północnoafrykański, egipski, zatokowy i lewantyński. Jednak biorąc pod uwagę, że dialekty nie są zgodne z granicami, może to być tak drobnoziarniste, jak jeden dialekt na miasto; na przykład native speaker z Egiptu potrafi odróżnić swój dialekt aleksandryjski od swojego rodaka z Asuanu (na mapie odległość 1000 km).
Budowanie zaawansowanej technologicznie przyszłości dla wszystkich
W tym momencie maszyny są mniej więcej tak dokładne, jak transkrypcje ludzi, w dużej mierze dzięki postępom w głębokich sieciach neuronowych, poddziedzinie uczenia maszynowego w sztucznej inteligencji, która opiera się na algorytmach inspirowanych biologicznym i funkcjonalnym działaniem ludzkiego mózgu. Jednak do niedawna rozpoznawanie mowy było nieco zhakowane. Technologia ma historię polegającą na różnych modułach do modelowania akustycznego, budowania leksykonów wymowy i modelowania języka; wszystkie moduły, które należy przeszkolić osobno. Niedawno naukowcy szkolili modele, które przekształcają cechy akustyczne bezpośrednio w transkrypcje tekstu, potencjalnie optymalizując wszystkie części pod kątem końcowego zadania.
Mimo tych postępów Ali nadal nie może wydawać poleceń głosowych większości urządzeń w swoim ojczystym języku arabskim. Jest rok 2021 i nadal nie mogę rozmawiać z wieloma maszynami w moim dialekcie – komentuje. Mam na myśli to, że teraz mam urządzenie, które rozumie mój angielski, ale rozpoznawanie maszynowe mowy arabskiej w wielu dialektach jeszcze się nie wydarzyło.
Dokonanie tego jest celem pracy Ali, której kulminacją był pierwszy transformator do rozpoznawania mowy arabskiej i jej dialektów; taki, który osiągnął niezrównaną wydajność. Technologia ta, nazwana QCRI Advanced Transcription System, jest obecnie wykorzystywana przez nadawców Al-Jazeera, DW i BBC do transkrypcji treści online.
Istnieje kilka powodów, dla których Ali i jego zespół odnieśli sukces w budowaniu tych silników mowy. Przede wszystkim, mówi, istnieje potrzeba posiadania zasobów we wszystkich dialektach. Musimy zgromadzić zasoby, aby móc następnie trenować model. Postępy w przetwarzaniu komputerowym oznaczają, że intensywne obliczeniowo uczenie maszynowe odbywa się teraz na procesorze graficznym, który może szybko przetwarzać i wyświetlać złożoną grafikę. Jak mówi Ali: Mamy świetną architekturę, dobre moduły i mamy dane, które reprezentują rzeczywistość.
Naukowcy z QCRI i Kanari AI niedawno zbudowali modele, które mogą osiągnąć parytet między ludźmi w arabskich wiadomościach telewizyjnych. System demonstruje wpływ dodawania napisów do codziennych raportów Aljazeera. Podczas gdy angielski wskaźnik błędów ludzkich (HER) wynosi około 5,6%, badania wykazały, że arabski HER jest znacznie wyższy i może osiągnąć 10% ze względu na złożoność morfologiczną języka i brak standardowych reguł ortograficznych w dialektalnym języku arabskim. Dzięki najnowszym postępom w zakresie głębokiego uczenia i kompleksowej architektury, arabski aparat rozpoznawania mowy przewyższa native speakerów w nadawanych wiadomościach.
Podczas gdy rozpoznawanie mowy w języku współczesnym standardu arabskiego wydaje się działać dobrze, naukowcy z QCRI i Kanari AI są zajęci testowaniem granic przetwarzania dialektalnego i osiąganiem doskonałych wyników. Ponieważ nikt nie mówi w domu w języku Modern Standard Arabski, dbałość o dialekt jest tym, czego potrzebujemy, aby nasi asystenci głosowi mogli nas zrozumieć.
Ta treść została napisana przez Katarski Instytut Badawczy Informatyki , Hamad Bin Khalifa University, członek Fundacji Kataru. Nie została napisana przez redakcję MIT Technology Review.