Курс "Подходи за обработка на естествен език", Зимен семестър 2015-16

Лектор Галя Ангелова, асистент Ивелина Николова телефон 9796607, е-мейл galia[AT]lml[dot]bas[dot]bg и iva[AT]lml[dot]bas[dot]bg .

Офис: Институт по информационни и комуникационни технологии на БАН, ул. "Акад. Г. Бончев" Блок 25А, стая 102. Адресът (улица, номер) може да се намери в http://www.bgmaps.com/map/sofia

Занятията се провеждат в ИИКТ-БАН, блок 25А, сряда от 18 часа, зала 2 в сутерена.

Повече детайли за съдържанието на курса и начина на оценяване можете да прочетете тук.

Лекция 1, 07/10: Уводна презентация и по-цялостен уводен текст, идея за съдържание на курса ( 1, 2) и обща илюстрация за работа на подходите, базирани върху правила.

Лекция 2, 14/10: Морфология. Кодиране на морфологични речници. Компактно кодиране чрез крайни автомати. Илюстрации за използването на крайните автомати при моделиране на морфологични явления: склонение на правилни немски глаголи и задача за унгарски именни фрази с диаграмни представяния.

Домашно 1.

За по-задълбочено запознаване: Компютърна морфология от Елена Паскалева.

Практикум 1 с Ивелина Николова, 21/10: упражнения по разделяне на текста на словоформи, морфологичен анализ, автоматично разпознаване на частите на речта, GATE, пре-процесинг, наименовани единици (Named Entities).

Лекция 3, 28/10: Автоматично разпознаване на частите на речта (POS-tagging, Part of Speech tagging). Примерни задачи за ТЕСТ 1: условия и решения.

Лекция 4, 4/11: Синтактичен анализ и ТЕСТ 1: 20:15-21:30 часа.

Практикум 2 с Ивелина Николова, 11/11: носете си компютри с инсталиран GATE

Практикум 3 с Ивелина Николова, 18/11

Лекция 5, 25/11: Логически форми и таблица с роли.

За по-задълбочено запознаване със синтактични структури в българския език: Формална граматика на българския език от Петя Осенова и Кирил Симов.

Подготовка за Тест 2: Примерни задачи за тест 2 и решения.

Лекция 6, 9/12: Дискурс

Практикум 4 с Ивелина Николова, 11/12

Лекция 7, 16/12: продължение за дискурс и тест 2 от 20:00 часа

Лекция 8, 23/12: генерация

Лекция 9, 6/01: устойчиви словосъчетания. Демонстрации на Светла Бойчева - презентация, обърнете внимание на екстрактора слайд 33

Лекция 10, 13/01: разрешаване на многозначността на значенията, демонстрация на подход за идентифициране на значението при анотация на изображения (презентация). Лекция 11: обработка на текста при извличане на документи със статистически методи.

Сайт със свободно-достъпни бази тип WordNet вкл. българския BulTreeBank Wordnet (BTB-WN): http://compling.hss.ntu.edu.sg/omw/

Български речник с 10хил. най-чести думи от вестници (2001г). - изтегляне от тук. Над него работи анализаторът, разгледан в Домашно 1. Ето по-подробен списък на използваните маркери за граматическите категории в речника.

Други приложения, които могат да ви бъдат полезни при разработка на проект: разгледайте програмата AntConc за правене на конкорданс на сайта http://www.laurenceanthony.net/software.html

Среда за question-answering, която споменахме: http://www.ask.com/

Резултати от тестовете досега: изтегли тук.

Примерни задачи за изпита, върху лекциите по /a/ извличане на подобни документи по модела на векторните пространства (задача 1) и /b/ търсене на колокации (задача 2). За първата задача е добре да си преговорите каква е разликата между морфологичен анализ, POS-тагиране и WSD (автоматично разпознаване на значенията).

Лекция 11, 20/01: обзорни схеми 1 и 2. Една илюстрация.

Поправителен изпит: 29 септември 2016, в зала 218 на ИИКТ-БАН, блок 25А, от 10 часа.