План-конспект урока на тему: Урок МДК "Системы машинного перевода текстов и компьютерные словари"

Содержание

Компьютерные словари и системы машинного перевода текстов

Компьютерные словари.

Словари необходимы для перевода текстов с одного языка на другой. Существуют тысячи словарей для перевода между сотнями языков (англо-русский, немецко-французский и т. д.), причем каждый из них может содержать десятки тысяч слов. В бумажном варианте словарь представляет собой толстую книгу объемом в сотни страниц, в которой поиск нужного слова является достаточно долгим и трудоемким процессом.

Компьютерные словари могут содержать переводы на разные языки сотен тысяч слов и словосочетаний, а также предоставляют пользователю дополнительные возможности. Во-первых, компьютерные словари могут являться многоязычными — давать пользователю возможность выбрать языки и направление перевода (например, англо-русский, испанско-русский и т. д.).

Во-вторых, компьютерные словари могут кроме основного словаря общеупотребительных слов содержать десятки специализированных словарей по областям знаний (техника, медицина, информатика и др.).

В-третьих, компьютерные словари обеспечивают быстрый поиск словарных статей: «быстрый набор», когда в процессе набора слова возникает список похожих слов; доступ к часто используемым словам по закладкам; возможность ввода словосочетаний и др.

В-четвертых, компьютерные словари могут являться мультимедийными, т. е. предоставлять пользователю возможность прослушивания слов в исполнении дикторов, носителей языка.

Системы компьютерного перевода.

Процесс глобализации мира приводит к необходимости частого обмена документами между людьми и организациями, находящимися в разных странах мира и говорящими на различных языках.

В этих условиях использование традиционной технологии перевода «вручную» тормозит развитие межнациональных контактов. Перевод многостраничной документации вручную требует длительного времени и высокой оплаты труда переводчиков. Перевод полученного по электронной почте письма или просматриваемой в браузере Web-страницы необходимо осуществлять срочно, и нет времени пригласить переводчика.

Системы компьютерного перевода позволяют решить эти проблемы. Они, с одной стороны, способны переводить многостраничные документы с высокой скоростью (одна страница в секунду), с другой стороны, переводить Web-страницы «на лету», в режиме реального времени.

Системы компьютерного перевода осуществляют перевод текстов, основываясь на формальном «знании»: синтаксиса языка (правил построения предложений), правил словообразования и использовании словарей. Программа-переводчик сначала анализирует текст на одном языке, а затем конструирует этот текст на другом языке.

Современные системы компьютерного перевода позволяют достаточно качественно переводить техническую документацию, деловую переписку и другие специализированные тексты. Однако они не применимы для перевода художественных произведений, так как не способны адекватно переводить метафоры, аллегории и другие элементы художественного творчества человека.

Контрольные вопросы

1. Какими преимуществами обладают компьютерные словари по сравнению с традиционными бумажными словарями? 2. В каких случаях целесообразно использовать системы компьютерного перевода?

Системы оптического распознавания документов

Системы оптического распознавания символов.

Системы оптического распознавания символов используются при создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат.

Сначала с помощью сканера необходимо получить изображение страницы текста в графическом формате. Далее для получения документа в текстовом формате необходимо провести распознавание текста, т. е. преобразовать элементы графического изображения в последовательность текстовых символов.

Системы оптического распознавания символов сначала определяют структуру размещения текста на странице и разбивают его на отдельные области: колонки, таблицы, изображения и т. д. Далее выделенные текстовые фрагменты графического изображения страницы разделяются на изображения отдельных символов.

Для отсканированных документов типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений) распознавание символов проводится путем их сравнения с растровыми шаблонами.

Растровое изображение каждого символа последовательно накладывается на растровые шаблоны символов, хранящиеся в памяти системы оптического распознавания. Результатом распознавания является символ, шаблон которого it наибольшей степени совпадает с изображением (рис. 3.16).

Рис. 3.16. Распознаваемый символ «Б» накладывается на растровые шаблоны символов (А, Б, В и т. д.)

При распознавании документов с низким качеством печати (машинописный текст, факс и т. д.) используется векторный метод распознавания символов. В распознаваемом изображении символа выделяются геометрические примитивы (отрезки, окружности и др.) и сравниваются с векторными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех геометрических примитивов и их расположение больше всего соответствует распознаваемому символу (рис. 3.17).

Рис. 3.17. Распознаваемый символ «Б» накладывается на векторные шаблоны символов (А, Б, В и т. д.)

Системы оптического распознавания символов являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

С появлением первого карманного компьютера Newton фирмы Apple в 1990 году начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.

Системы оптического распознавания форм.

При заполнении документов большим количеством людей (например, при сдаче выпускником школы единого государственного экзамена (ЕГЭ)) используются бланки с пустыми полями. Данные вводятся в поля печатными буквами от руки. Затем эти данные распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать символы, написанные от руки, которые довольно сильно различаются у разных людей. Кроме того, такие системы должны уметь определять, к какому полю относится распознаваемый текст.

Контрольные вопросы

1. В чем состоят различия в технологии распознавания текста при использовании растрового и векторного методов?

Практические работы компьютерного практикума, рекомендуемые для выполнения в процессе изучения главы

Компьютерный практикум

№ 8. Кодирование текстовой информации.

№ 9. Создание визитных карточек на основе шаблона.

№ 10. Установка параметров страницы документа, вставка колонтитулов и номеров страниц.

№ 11. Вставка в документ формул.

№ 12. Форматирование символов и абзацев.

№ 13. Создание и форматирование списков.

№ 14. Вставка оглавления в документ, содержащий заголовки.

№ 15. Вставка в документ таблицы, ее форматирование и заполнение данными.

№ 16. Создание гипертекстового документа.

№ 17. Перевод текста с помощью компьютерного словаря.

№ 18. Сканирование и распознавание бумажного текстового документа.

Интернет-ресурсы

С появлением поисковых систем Google и Yandex Интернет стал бесценной энциклопедией и лучшим другом переводчика. Эти системы действительно открывают перед переводчиком очень широкие возможности. За несколько секунд можно проверить, в каком контексте встречается то или иное сочетание, вызывающее затруднения при переводе. Многоязычные инструменты (в первую очередь Wikipedia) позволяют переключаться между статьями, написанными на одну тему, но на разных языках. В результате переводчик получает возможность сравнить терминологию языков оригинала и перевода в той или иной узкой предметной области. Например, если для переводчика английский язык не является родным и он не уверен, какую формулировку лучше использовать (например, heavy rain или strong rain), то задав оба варианта в строке поиска Google, можно сравнить частотность каждого из них по количеству найденных страниц (8,8 миллионов для heavy rain и 41 900 для strong rain). Чтобы Google искал именно словосочетание, а не отдельные слова, их нужно взять в кавычки. Разумеется, использовать Интернет как основной источник информации для принятия решения нужно очень осторожно. Сам факт того, что в сети нашлось больше сорока тысяч сайтов, содержащих неидиоматическое в английском языке выражение strong rain, говорит о ненадежности этого источника. К счастью, грамотных авторов сайтов все-таки больше, чем неграмотных, и указанный выше метод несколько лет с успехом применяется автором этой статьи в его переводческой деятельности. С распространением сети Интернет появляется все больше ресурсов, доступ к которым можно получить через сеть. Доступны онлайн-версии многих электронных словарей, в том числе с возможностью пополнения пользователями (например, www.multitran.ru). Интернет соединил переводчиков, живущих в разных странах мира. С каждым днем появляется все больше форумов, блогов и ресурсов для переводчиков, где последние могут обмениваться опытом и помогать друг другу. Наиболее известный среди таких сайтов в России – «Город переводчиков», а среди западных – Proz.com, KudoZ, Translators’ Café и Translators’ Base. Некоторое время назад среди переводчиков также были популярны списки рассылки (например, Lantra-L и Trad-Prt). Используя программы коммуникации (ICQ, Skype и другие), переводческие компании могут привлекать к работе переводчиков – носителей языка из разных стран. Благодаря сети Интернет рынок переводов становится действительно единым и глобальным. Появляются международные ассоциации переводчиков (например, Американская ассоциация переводчиков, или сокращенно ATA, основанная в 1959 году и включающая 10 500 переводчиков из 70 стран мира). В 2005 году ATA провела «перепись переводчиков», по результатам которой можно сделать ряд интересных выводов. Так, 67,1% переводчиков, состоящих в ассоциации, – женщины и только 32,9% — мужчины. 63,6% переводчиков проживали в США, а 36,4% – за пределами этой страны. Только 74,6% переводчиков имеют высшее образование. Роль ATA заключается в том, что эта организация проводит сертификацию переводчиков. Появление компьютерной техники, накопителей переводов, электронных словарей, программ распознавания речи и текста позволило ускорить и облегчить работу переводчиков. В результате существенно вырос оборот переводческой отрасли. Тем не менее, накопители переводов используют далеко не все переводчики.

Качество перевода[ | ]

Возможно, этот раздел содержит оригинальное исследование.

Добавьте ссылки на источники, в противном случае он может быть удалён. Дополнительные сведения могут быть на странице обсуждения. (27 октября 2012)

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке.[источник не указан 3042 дня

] Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»[комм. 1]. Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black», которую онлайн-переводчик «ПРОМТ» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца».[6] Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten», то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращал «Лев Толстой» в «Lion Thick» («толстый лев»), «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит» и т. п. Переводчик Google, наоборот, слово «rice» часто принимал за фамилию госсекретаря США.