Вы тут

Цяпер з нуля можна лёгка зрабіць аўтаматычны перакладчык з рускай на беларускую

Фота: gemeration.by

Большая частка сучасных сістэм машыннага перакладу выкарыстоўвае паралельныя карпусы. Паралельны корпус — гэта значная колькасць тэкстаў на дзвюх мовах, у нашым выпадку — тэксты па-беларуску і іх пераклады на рускую. З такога корпусу сістэма можа аўтаматычна вывучыць, якое слова ці фраза ў адной мове адпавядае слову ці фразе ў іншай. Такі корпус на аснове тэкстаў Еўрарадыё вырашыў зрабіць праграміст Антон Брыль:

"Не для кожнай мовы можна нешта гатовае ўзяць з інтэрнэту і пачаць рабіць эксперыменты. У нейкі момант я зразумеў, што ў вас вельмі шмат двухмоўнага тэксту, які нішто не перашкаджае ператварыць у такі корпус. Я пусціў на гэта некалькі выходных дзён і гэты корпус сабраў. Цяпер ахвочыя могуць рабіць перакладчык альбо праводзіць эксперыменты па аўтаматычным перакладзе. Узяўшы такі корпус, можна зрабіць перакладчык з нуля".

Працуе гэта прыблізна так: уявіце вялікую колькасць паралельных сказаў — сказ па-руску і той самы па-беларуску. Калі палічыць, якое рускае слова найчасцей сустракаецца насупраць нейкага беларускага, атрымаецца звычайны беларуска-рускі слоўнік. Калі ўзяць не толькі словы, але і фразы і канструкцыі, атрымаецца слоўнік больш шырокага плану: аўтаматычная табліца адпаведнасцяў паміж мовамі. Гэта базавая ідэя таго, як працуе статыстычны аўтаматычны пераклад.

Для многіх заходнееўрапейскіх моваў для гэтага выкарыстоўваюцца, у прыватнасці, дакументы Еўрапарламента, якія перакладаюцца на ўсе мовы дзяржаў-сяброў. Цяпер такі корпус ёсць і для беларускай мовы.

Корпус Еўрарадыё — гэта больш за 100 тысяч пар сказаў, таму пераклад мусіць атрымацца прыстойнай якасці. Мы заклікаем карыстацца корпусам і звяртацца, калі знойдуцца памылкі. Такі корпус дазволіць беларускай мове значна камфортней пачувацца ў вялікім свеце машыннага перакладу.

СПАМПАВАЦЬ