Kategoria: Teoria

Hurtownia danych

Hurtownia danych (ang. data warehouse) rodzaj bazy danych, która jest zorganizowana i zoptymalizowana pod kątem pewnego wycinka rzeczywistości. Hurtownia danych jest wyższym szczeblem abstrakcji niż zwykła relacyjna baza danych (choć do jej tworzenia używane są także podobne technologie). W skład hurtowni wchodzą zbiory danych zorientowanych tematycznie (np. hurtownia danych klientów). Dane te często pochodzą z wielu źródeł, są one zintegrowane i przeznaczone wyłącznie do odczytu.

Czytaj dalej

Tłumaczenie automatyczne

Tłumaczenie automatyczne albo tłumaczenie maszynowe (ang. Machine Translation) jest dziedziną językoznawstwa komputerowego, które zajmuje się stosowaniem algorytmów tłumaczenia tekstu z jednego języka (naturalnego) na drugi.

Pierwsze odnotowane pomysły tłumaczy automatycznych pochodzą już z XVII w., lecz nie było możliwości ich realizacji. Dopiero nadejście komputerów pozwoliło tej dziedzinie „rozwijać powoli skrzydła”. Pierwsze maszyny tłumaczące pojawiły się w 1933 r., i wykorzystywano je głównie w wojskowości.

Spis treści

Główne metody tłumaczenia automatycznego

Główne metody, przez które realizowane jest automatyczne tłumaczenie:

  • Systemy tłumaczenia bezpośredniego – wyrazy tekstu źródłowego zamieniane są tu wprost na tłumaczenie w oczekiwanym języku. Program zawiera odpowiadające sobie słowa i najczęściej stosowane frazy. Tłumaczenie tego typu daje akceptowalne wyniki tylko w zastosowaniu dla blisko ze sobą spokrewnionych języków.
  • Systemy przekładu składniowego – analizują składniową stronę tekstu. Najczęściej rezultatem jest drzewo składników, do którego następnie stosuje się odpowiednie reguły transferu.
  • Systemy oparte o powierzchniowy transfer semantyczny – biorą pod uwagę własności składniowe i częściowo znaczeniowe. Realizowane jest to poprzez dołączenie do drzewa struktury syntaktycznej dodatkowych informacji naprowadzających, np. atrybutów znaczeniowych.
  • Systemy międzyjęzykowe – oparte są o uniwersalny język reprezentacji znaczenia (tzw. interlingwę), który jest niezależny od języków naturalnych, zawartych w systemie. Proces translacji składa się z dwóch etapów: tłumaczenia z języka źródłowego na interlingwę i tłumaczenia z interlingwy na język wynikowy.
  • Tłumaczenie statystyczne – tłumaczenie w oparciu o wielkie zestawy (korpusy) tekstów przetłumaczonych przez człowieka. Dla danego zdania szukane jest jego najbardziej prawdopodobne tłumaczenie. Prawdopodobieństwo tłumaczenia obliczane jest na podstawie współwystępowania wyrazów w zebranym korpusie. Sukcesy w tym podejściu notuje portal google, gdyż korzysta ze swoich olbrzymich korpusów stron internetowych.
  • Tłumaczenie oparte na przykładach – podobnie jak tłumaczenie statystyczne opiera się na istniejących tekstach przetłumaczonych. Dla danego zdania źródłowego system szuka najbardziej podobnego przykładu w swojej bazie danych i na tej podstawie wnioskuje jego tłumaczenie.

Podstawowe jednostki języka

Podstawowe jednostki języka. Podlegają one abstrakcji.

  • Głoski, czyli konkretne dźwięki. Abstrakcją głosek są fonemy. Fonem to klasa dźwięków, które użytkownicy języka poznają jako posiadające pewne odrębne cechy, wyróżniające je spośród innych dźwięków.
  • Morfy – są najmniejszymi składnikami języka posiadającymi znaczenie. Ich abstrakcję zwiemy morfemami.
  • Wyrazy – konkretną formę wyrazu, którą używamy, nazywamy wyrazem tekstowym. Abstrakcją dla niego jest leksem. Teraz mały przykład: domem, domy to dwa wyrazy tekstowe jednego leksemu, z kolei wyraz domy składa się z dwóch morfemów: dom – budynku oraz końcówki y wskazującej, że jest ich więcej niż jeden.
  • Frazy (związki frazeologiczne) – ich abstrakcje to schematy frazy.
  • Zdania – przyjmuje się, iż są podstawową jednostka tekstu. Ich abstrakcjami są schematy zdań.
  • Wypowiedź – jest po prostu ciągiem zdań.

Niekiedy frazy i zdania traktuje się jako jedno i określa mianem sememów.

Kwestie semantyczne związane z automatycznym tłumaczeniem

Pierwszą kwestią jest zagadnienie sensowności. Wyróżnia się trzy rodzaje sensowności.

  • Sensowność lokucyjna – związana jest ona z językiem naturalnym i jest słownikowym znaczeniem znaków. Nie zależy ona od kontekstu sytuacyjnego. Sensowność ta jest stopniowalna (np. prosimy o pojaśnianie).
  • Sensowność logiczna – nie ujawnia się empirycznie. Sensowność ta jest związana z językiem logiki. Jednakże język logiki komunikowalny jest tylko poprzez język naturalny. Powstaje problem przekładu. Wypowiedz jest sensowna logicznie gdy jest skorelowana ze zdaniem logicznym. Nie jest ona stopniowalna, ani nie zależy od kontekstu sytuacyjnego.
  • Sensowność wolicjonalno-emotywna – ujawnia się w kontekstach sytuacyjnych. Wypowiedzi mogą być niedostosowane do konwencji sytuacyjnej. Ta sensowność jest adaptacyjnością. Pojawia się rozróżnienie na kod kulturowy sytuacji i sens materialny. Sens materialny może być taki sam, a kody kulturowe różne. Sensowność ta jest stopniowalna.

Zestawmy powyższe z zagadnieniem automatycznego tłumaczenia. Tłumaczenie z pewnością musi brać pod uwagę każdy z omawianych sensów. Sensy te manifestują się w języku naturalnym. Wynika stad problem właściwej interpretacji, zwłaszcza sensu wolicjonalno-emotywnego. Nietrudno zresztą zauważyć, że właśnie ten sens stwarza najwięcej problemów przy tłumaczeniu. Rozważmy przykład wzięty z reklamy: w wielu reklamach spotykamy się z określeniem produktów spożywczych jako lekkich. Określenie to odnosi się pośrednio do preferowanego w naszej kulturze bycia szczupłym, tzn. lekkim. Gdyby nie kod kulturowy nie zrozumielibyśmy tej aluzji. Warto zauważyć, iż na znaczenie wypowiedzi wpływa również sens jaki mogą mieć reprezentacje brzmieniowe i graficzne wypowiedzi.

Samo pojęcie znaczenia ma istotny wpływ na zagadnienie automatycznego tłumaczenia. Myślę, że twórcy programów do automatycznego tłumaczenia mieliby uproszczone zadanie gdyby znali odpowiedz do czego odnoszą się poszczególne części wypowiedzi. Problematyczna jest też zmienność znaczenia. Język jest tworem żywym. Oznacza to, iż jego części bądź przestają funkcjonować, bądź tworzą się nowe, bądź znaczenie ich ulega częściowej lub całościowej zmianie.

Metaforyczność stanowi ważny problem. W języku naturalnym znajdują się metafory (nie ma ich w języku logiki). Kiedy mamy do czynienia z metaforą? Wtedy gdy zostanie złamana zasada kompozycji znaczeniowej, która mówi, że znaczenie wyrażenia całościowego jest funkcją znaczeń wyrażeń składowych. Np. zdanie: „Matematyka jest moją piętą achillesową” oznaczałoby dosłownie, nie metaforycznie, ,ze matematyka jest dla mnie częścią nogi mitycznego herosa. Jednakże nie można pozbyć się metafor, gdyż język straciłby swą moc informacyjną.

Synonimia. Nawet w jednym języku nastręcza ona trudności, przez to, iż wyrazy mają różny zakres pojęciowy. W tłumaczeniu problem ten ulega tylko powiększeniu. Częstokroć bywa tak, że tłumaczony wyraz nie ma swego odpowiednika w drugim języku.

Homonimy są kolejnymi problemami w automatycznym tłumaczeniu. Właściwa interpretacja jest przy nich bardzo ważna. Np. zdanie: „Podszedł do zamku” można interpretować na różne sposoby i interpretacje są zależne od kontekstu. Pojawia się tu kwestia umiejętności donoszenia się do kontekstu przez automatycznego tłumacza.

Dużą grupę problemów stanowią różnice w składni pomiędzy językami. Np. w języku angielskim istotne jest miejsce wyrazu w zdaniu (jest to język pozycyjny), natomiast w języku polskim nie. Innymi problemami jest występowanie w języku rodzajników określonych i nieokreślonych lub podmiotu domyślnego. Powstaje również pytanie o możliwość stworzenia języka pośredniego w tłumaczeniu, biorąc pod uwagę dotychczasowe rozważania (szczególnie te odnoszące się do kultury). Rodzaje programów tłumaczenia automatycznego (maszynowego):

  • Tłumaczenie wspomagane maszynowo, polega na tym , że całe tłumaczenie jest wykonywane przez człowieka wykorzystującego kompuer w celu usprawnienia i przyspieszenia całego procesu.
  • Tłumaczenie wspomagane przez człowieka, polega na tym, że tekst źródłowy jest modyfikowany przed, w czasie lub po przetłumaczeniu go przez komputer.
  • Tłumaczenie całkowicie maszynowe, polega na tym ze program otrzyuje tekst źródłowy i bez żadnej ingerencji człowieka generuje tekst w języku wynikowym.

Logika rozmyta

Logika rozmyta (ang. fuzzy logic), jedna z logik wielowartościowych (ang. multi-valued logic), stanowi uogólnienie klasycznej dwuwartościowej logiki. Jest ściśle powiązana z teorią zbiorów rozmytych i teorią prawdopodobieństwa. Została zaproponowana przez Lotfi Zadeha w 1965 roku. W logice rozmytej między stanem 0 (fałsz) a stanem 1 (prawda) rozciąga się szereg wartości pośrednich, które określają stopień przynależności elementu do zbioru, logika taka ma jednak skończoną liczbę wartości.

Czytaj dalej