Rozprawa doktorska - streszczenie

Modelowanie znaczenia przy wspomaganiu analizy biznesowej

Praca dotyczyła dwóch dziedzin: inżynierii oprogramowania oraz lingwistyki komputerowej. Dokumenty w języku naturalnym pojawiają się na wczesnych etapach wytwarzania systemów informatycznych, szczególnie jako tzw. opisy rzeczywistości, które przedstawiają rzeczywistość, w której będzie funkcjonował tworzony system. Niektóre metodyki (np. USDP) zalecają, aby na ich podstawie utworzyć tzw. model konceptualny w pewnym języku formalnym. W USDP nosi on nazwę modelu biznesowego i jest wyrażany w języku UML. Składa się z diagramów klas i diagramów przypadków użycia. Pierwsze opisują strukturę rzeczywistości, drugie – pewne elementy jej dynamiki. W literaturze pojawiają się różne zalecenia systematycznego sposobu analizy opisu rzeczywistości, bazujące na częściach mowy wyrazów występujących w tekście. Naturalnym dalszym krokiem jest wykorzystanie metod lingwistyki komputerowej do dokładniejszej analizy tekstu i dalszej automatyzacji tworzenia modelu konceptualnego. Można zaobserwować następujące mankamenty istniejących prac implementujących te zalecenia: 1. nie generują modeli w języku UML, który jest uznanym standardem zapisu tego typu modeli; 2. analiza tekstu jest powierzchowna lub język przetwarzanych tekstów jest z góry ograniczony.
Drugi problem wiąże się z ciągle nierozwiązanym w satysfakcjonującym stopniu jednym z głównych zadań lingwistyki komputerowej: modelowaniem znaczenia tekstu w języku naturalnym. O ile prace teoretyczne osiągają coraz lepsze wyniki w formalnym opisie właściwości znaczenia, o tyle ich wyniki prowadzą do coraz bardziej skomplikowanych konstrukcji matematycznych i nie nadają się do praktycznego wykorzystania. Z kolei prace praktyczne zwykle wykorzystują rozwiązania specyficzne dla stawianego im zadania, co utrudnia ich uniwersalne wykorzystanie.
Rozwiązaniem tych problemów może być wykorzystanie ontologii bardziej rozbudowanej niż ta wykorzystywana przez formalizmy logiki. Praca proponuje ontologię znaczenia, która modeluje założony repertuar zjawisk językowych. Są to zjawiska występujące w opisach rzeczywistości, ontologia jest jednak otwarta na poszerzanie tego repertuaru. Podejście ontologiczne do modelowania kolejnych zjawisk językowych okazało się bardzo wygodne, powstała rozszerzona wersja ontologii znaczenia, uwzględniająca różne aspekty wyrażeń liczebnościowych, a przy okazji zaobserwowane zostały konstrukcje nie omawiane w literaturze.
Ontologia została wpisana w standardowy czterowarstwową architekturę metadanych opartą o MOF. Dzięki temu jest ona jednocześnie specyfikacją języka służącego do wyrażania modeli znaczenia konkretnego tekstu. W pracy opracowano także jej automatyczną konwersję do implementującego ją zestawu klas języka C++.
Opracowany został algorytm tworzenia modelu znaczenia na podstawie drzew rozbioru składniowego. Opracowany został drzewiasty (uproszczony formalizm TAG) język specyfikacji kształtu tych drzew dla wybranych konstrukcji składniowych, który umożliwia wykorzystanie różnych analizatorów składniowych. W pracy wykorzystany został własny analizator napisany w języku Prolog
Ontologia znaczenia oraz zaimplementowany wyżej opisany algorytm zostały wykorzystane w opracowanej w ramach pracy metodzie wspomagania tworzenia modelu biznesowego na podstawie analizy opisu rzeczywistości. Metoda uwzględnia wykrywanie błędów i wieloznaczności na trzech poziomach: składniowym, semantycznym i pragmatycznym. Błędy wymagają korekty lub pominięcia zdania, w którym się znajdują. Wieloznaczności mogą być wyeliminowane w ten sam sposób lub można przeprowadzić analizę dla każdej alternatywy niezależnie, a następnie porównać jej wyniki na podstawie tekstowej parafrazy utworzonych fragmentów modelu znaczenia i wybrać właściwą interpretację.
Metoda ta została zaimplementowana jako prototyp narzędzia, które na wejściu otrzymuje tekst w języku polskim, przeprowadza jego analizę raportując błędy i wieloznaczności i pozwalając podjąć opisane wyżej kroki w celu ich wyeliminowania. Przeprowadzone testy wskazują, że po odpowiednim dopracowaniu, narzędzie mogłoby być pomocne przy tworzeniu wstępnej wersji modelu biznesowego na podstawie opisu rzeczywistości. Oprócz zoptymalizowania interfejsu użytkownika, konieczne by było także wykorzystanie bardziej zaawansowanego analizatora składni oraz uszczegółowienie analizy niektórych zjawisk językowych. Bardzo pomocne by były także bazy semantyki leksykalnej, których ciągle brakuje dla języka polskiego.
Copyright © 20062008 by LingLab   n   All Rights reserved   n   e-mail: info@linglab.pl
LingLab Linguistic Laboratory
LingLab Linguistic Laboratory