Марія Шведова: "Корпус - необхідний інструмент для сучасного лінгвіста"

Марія Шведова: "Корпус - необхідний інструмент для сучасного лінгвіста"

Поєднання лінгвістики і сучасних інформаційних технологій.

Про регіонально анотований Корпус української мови йшлося в програмі Українського радіо "Сьогодні. Вдень". Гостя студії - лінгвіст Марія Шведова - є співтворцем продукту, який називається Генеральний регіонально анотований Корпус української мови.

Роман Коляда: Розкажіть людям не посвяченим, що таке Корпус української мови?

Марія Шведова: Корпус - це необхідний інструмент для сучасного лінгвіста. Це пошукова база, яка складається з великої кількості текстів, зібраних таким чином, щоб там були тексти різних часів, різних авторів, різних регіонів, різних жанрів, і лінгвістичний програмний інструментарій, який дозволяє працювати з цим матеріалом. У Корпусі можна не тільки шукати слово чи точну форму, як в Гуглі, можна шукати граматичну форму, можна шукати поєднання слів граматичних форм, різні складні синтаксичні конструкції і можна отримувати якусь статистичну інформацію, важливу для лінгвістичних досліджень. Корпуси використовують не тільки для наукової роботи, а й для укладання програм автоматичного перекладу і просто для довідок. Наш Корпус доступний в Інтернеті.

Роман Коляда: Тобто отой кошмар, який я читаю в Гугл-перекладі з російської на українську, це результат того, як працює ваш Корпус?

Марія Шведова: Ні, не наш. Автоматичний переклад вдосконалюється на основі корпусів, які збільшуються і вчать цю програму.

Роман Коляда: Я ніколи не міг зрозуміти, як можна навчити машину думати складними лінгвістичними конструкціями, особливо коли йдеться про таку складну мову, як українська. Це правда, що вона аж така складна?

Марія Шведова: Мабуть так, як будь яка природна мова складна, штучні мови простіші.

Роман Коляда: Чи існують мови, яким простіше навчити комп'ютер?

Марія Шведова: Так, це мови з менш розвинутими морфологічними системами, де немає відмінків, наприклад.

Роман Коляда: Чим відрізняється Корпус і словник?

Марія Шведова: Відрізняється тим, що словник - це оброблений мовний матеріал, підготовлений лексикографами, який є штучним. А Корпус - це реальні тексти, написані багатьма людьми в нашому Корпусі - майже 4 тисячі авторів. І можна звернутися до авторитету не однієї людини, а до колективного носія мови.


Повну версію програми слухайте за посиланням