Использование машинного перевода в системах поиска русскоязычной информации RUSSIAinfo, университет ХельсинкиКомпания ПРОМТ, Санкт ПетербургТаня ПурсиайненДарьяна Цугульская
Информационная служба RUSSIAinfo создана в университете Хельсинки по инициативе и при поддержке Министерства Просвещения Финляндии RUSSIAinfo предлагает доступ к электронным ресурсам по России для академического международного круга пользователейРеферативная база данных Метаданные: на английским и на финском Поиск: на английским и на финском Ресурсы: 32% на английском языке, 12% на финском языке, 55% на русском языке, 11% на других языках
Для пользователей, не владеющих русским языком, RUSSIAinfo предлагает возможность машинного перевода текстов с русского на английский (лицензия от ПРОМТ)В настоящий момент предлагается три способа использования машинного перевода: перевод текста, перевод URL, и автоматический перевод результата поискаЦель подключения МП – повышения коэффициента полноты поисковой системы: русскоязычные ссылки не отбрасываются пользователемКачество перевода: самое высокое достигается при переводе текстов по экономической тематике (специальные словари)Сотрудничество с компанией ПРОМТ позволит нам также повысить качество перевода текстов по другим тематикам
Машинный перевод: черновой вариант переводаБыстрый перевод текста с целью понять смыслПолное соответствие идеологии WWW: пользователь привык быстро «просматривать» веб-страницы и немедленно получать информациюЛингвистическая база, программная база. Общелексические и специальные словари. Позволит решить одну из основных проблем многоязычного поиска информации: перевод поисковых выражений (фраз)
От чего зависит точность перевода?Грамотность исходного текста: Грамматика, правописаниеНаличие слов в переносном значении, неологизмов, аббревиатур
Улучшение качества перевода специализированных текстовПодключение специализированных словарей (Созданных ПРОМТ / Созданных пользователем) Создание списка зарезервированных слов Пример: Перевод документации по теме стоматология 1. С использованием созданного компанией ПРОМТ специализированного словаря 2. С использованием общелексического словаря
Example: The layer of material beneath tooth enamel is the dentine. It too is composed of hydroxyapatite to the extent of about 70 per cent, the remainder is collagen and water. The dentine matrix is perforated by a number of tiny canals which radiate from the pulp cavity to the surface. These are the dentine tubules.
Создание специализированных словарей для RUSSIAinfoРоссийские государственные учреждения:
Схема поиска информации с подключением машинного перевода:
Обратный перевод - с английского на русский - позволит направлять поиск в русские поисковые системы путем перевода поисковых команд (Cross Language Information Retrieval)Перевод метаданных полученных результатов позволит повысить не только коэффициент полноты, но и коэффициент точности системы
Схема поиска информации с подключением машинного перевода; интеграция русских баз данных (обратный перевод):
Планы на будущее: Создание двуязычных (многоязычных ?) тезаурусов для поиска информацииСоздание систем репрезентации поисковых команд и документов, не зависящих от входного/выходного языков для многоязычного поиска информации
СПАСИБО! RUSSIAinfo, университет ХельсинкиКомпания ПРОМТ, Санкт ПетербургТаня ПурсиайненДарьяна Цугульская