От близо година в Българската Академия на Науките е инсталиран и пуснат в действие Граматичен сървър, който съдържа езикови знания за българския език. Чрез Интернет се осъществява достъп до компютърната система, чрез която могат да се правят комплексни граматични справки. В Граматичния сървър са съчетани задълбочени знания за езика с най-съвременните компютърни и комуникационни технологии. Адресът за достъп е http://gws.acad.bg или http://origin2000.bas.bg. |
Началната страница на Граматичния сървър.
Как се осъществява достъпът до граматичната информация? От компютър
с Интернет достъп чрез WWW броузер с JAVA възможности се набира адресът
на Граматичния сървър. Въвеждането на думите се осъществява чрез натискане
на бутоните на изобразената на екрана клавиатура. В случая е дадена граматична
справка за думата замогнахме. При натискането на бутона, на който е изобразен
високоговорител, се получава аудио възпроизвеждане на думата. В долната
част на екрана е изписана езиковата информация за думата. Тя включва акцентуална,
граматична, правоговорна и словообразувателна справка.
Системата предлага диалогово консултиране на широк кръг потребители с големия Граматичен, акцентуален и правоговорен речник на българския език, както и с разработващия се словообразувателен речник. Интернет ползвателите от цял свят -- изучаващи, преподаващи или изследващи българския език, получават възможността да правят различни специализирани справки за българската граматика. Наред с полезното практическо значение трябва да се отбележи и големият ефект за популяризирането на българската наука -- системата демонстрира постиженията в областта на българската компютърна лингвистика и компютърната комуникационна техника пред всички потребители на Интернет.
Граматичната информация, която може да бъде получена, е структурирана по следния начин:
Граматичният сървър използва последните достижения в Интернет технологиите, което позволява едновременното осъществяване на хиляди граматични справки в секунда. Достъпът до него осигурява визуализирането и въвеждането на кирилица независимо от потребителската компютърна система.
Наред с голямата практическа полза, тази иновативна технология представя не само българската наука, но и богатството на българския език и култура.
Друг феномен на езика е това, че по еднакъв начин се изписват форми, които произлизат от различни думи и имат различни значения. Например думата води може да е множественото число на вода, но може да бъде и форма на глагола водя. За всяка форма трябва да се съдържат следните данни: основна форма, граматична информация за основната форма като част на речта, вид на глагола и т. н.; граматична информация за словоформата като време, лице, число и т. н. и акцентуална информация т. е., място на ударението. Трябва да се отбележи, че образуването на формите на дадена дума не винаги става само чрез промяна на окончанието. Например множественото число на думата вятър е ветрове и се образува чрез изменение в основата на думата. Това явление се нарича редуване. Друг проблем са изключенията, които се наблюдават при образуването на формите. Например глаголите, които са непреходни, не образуват страдателни причастия (от спя не се образува спан), а безличните глаголи образуват само някои форми в трето лице. Поради това създаването на коректен и пълен граматичен речник налага използването на нетривиални модели. Трудности възникват и при създаването на словообразувателния речник. Такъв речник трябва да представя информация за корена, представките и наставките на думите. Например думата замогнахме е образувана от корена мога с представка за, наставка на и флективно окончание хме. Моделите, необходими за създаването на словообразувателен речник, са дори по-сложни от тези за граматичен речник.
Възниква и проблемът за компютърното представяне на комплексните граматични данни. Тъй като граматичните данни в некомпресиран вид имат огромен обем (десетки мегабайта), е целесъобразно тяхното компресирано представяне. Стандартните методи за компресиране на информация не са приложими, защото не позволяват бърз достъп до търсените данни. За нашата система бързият достъп до данните има важно значение.
За да може системата да работи надеждно в реално време, тя трябва да има възможност да обслужва голямо количество клиенти едновременно. Поради това се налага да се обработват хиляди граматични заявки в секунда. Това допълнително се затруднява от голямото количество лексикални единици. За да се осъществи връзката на програмната система, обслужваща граматичните данни към Интернет, е необходимо създаването на специализиран интерфейс към WWW сървър. Известен проблем е визуализирането и въвеждането на кирилица върху различните компютърни платформи. Въпреки че много системи поддържат кирилица, за сега няма единен стандарт, чрез който това да стане платформено независимо. Поради това трябва да се използват нови универсални решения.
За решаването на проблемите, свързани с представянето, компресирането и използването на лингвистичните данни от речниците, бяха разработени и изследвани специализирани методи за обработка на ациклични крайни автомати и крайни преобразуватели. Техниката на крайните автомати е най-авангардното направление на съвременната компютърна лексикография. Всички водещи световни звена в областа на компютърната лингвистика като например Xerox Research Center Europe, LADL Paris, AT&T Labs и др. разработват свои методи и пакети за обработка на крайни автомати и трансдюсери. Това определя голямото значение на разработения от авторите метод за директно построяване на минимален краен автомат по даден списък. Този метод се използва за изграждането на системата за обработка на граматични заявки. Основното преимущество на метода е особено добрата му изчислителна сложност: относно памет -- O(m) и относно време -- O(n log(m)), където n е големината на входния език, а m е големината на резултатния минимален автомат. Тези показатели са значително по-добри от световните достижения в това отношение.
Основният приложен резултат е изграждането на високотехнологичен WWW сървър, интегриран със система за обработка на граматични заявки. Като основна софтуерна платформа е използвана системата JAVA, която, както е добре известно, е водеща технология за създаване на интерактивни Интернет приложения. Уникална характеристика на Граматичния сървър е, че всички програмни модули, изброени по-долу, са програмирани на JAVA. По този начин сървърът е преносим на всяка хардуерна и софтуерна платформа поддържаща JAVA.
Основните модули на системата са:
В момента предстои завършването на системата за пренасяне на думите на нов ред. Коректността на тази система ще бъде многократно по-добра в сравнение с широкоизползваните в други програми. Вероятно при издаването на настоящия материал новият модул ще бъде вече вграден.
Сериозна допълнителна работа се изисква за подобряването на звуковото възпроизвеждане на думите. Могат да се използват авангардните компютърни технологии за синтезиране на говор -- предпоставка за това е правоговорният речник, който вече е вграден в системата.
Амбициозна цел на колектива е осигуряването на възможност за анализиране на корпуси от текстове чрез речниците и извличане на обобщени лингвистични справки. Интерес представлява и вграждането на системи за анализ на паралелни дву- и многоезични текстове с цел автоматичното създаване на двуезични терминологични речници. Колективът има вече опит в създаването на подобни системи от международните научни проекти, финансирани от европейската общност, в които е участвал.
Малко по-далечни цели са създаването на система за граматичен анализ, с която се проверява граматичната коректност на изреченията, и система за автоматичен превод на и от други езици.
Авторският колектив е убеден, че работата по развитието на Граматичния сървър ще бъде от огромна полза за развитието на българската компютърна лингвистика. Разбира се за да се реализират горепосочените компоненти, е необходимо осигуряването и на допълнително финансиране.
Надяваме се, че това представяне ще увеличи интереса към Граматичния сървър. Вашите коментари, критики и предложения очакваме на адрес: stoyan@lml.bas.bg.