ошибки в распознавании букв

  • 4,7K Просмотров
  • Последнее сообщение 09 декабря 2006 02:25
Маринала (LingvoDa) написал 05 ноября 2006 02:50

Допустим я хочу создать англо-русский словарь. Для этого я его должна отсканировать,
перевести в текстовый формат и отредактировать полученный текст, т.е. перевести в формат dsl.

Вопросы следующие:

1. Где гарантия, что при распознавании отсканированного текста программа
распознает все русские буквы как русские, а все английские буквы как английские?
Ведь, есть русская буква "е" и английская буква "е", русская "а" и английская "а" и т.д.

2. Если программа в английском слове "table", допустим, распознает буквы "а" и "е"
как русские, то что станет с карточкой в Лингво - я не смогу осуществлять поиск беспрепятственно или она будет утрачена совсем?
Или, если в русском слове "коллега" русские буквы "о", "е" и "а" будут распознаны как
английские, то что случиться? А не смогу найти это слово с помощью функции поиска
в Лингво?

Сортировка: Стандарт | Новые | Голоса
pnkv (LingvoDa) написал 06 ноября 2006 11:53

файн ридер обладает словарной поддержкой, поэтому путаница похожих букв из разных алфавитов достаточно мала. Необходимо только после сканирования и распознавания еще запустить проверку текста.

Sancho (LingvoDa) написал 08 ноября 2006 10:36

гарантии нет никакой. Если словарь большой, то таких ошибок будет предостаточно. А если запускать проверку орфографии всего текста, то замучитесь ошибки исправлять. Лучше написать для этого макрос для Ворда или воспользоваться уже таким готовым макросом из надстройки для Ворд под названием "Перестройка 2002"

vladd (LingvoDa) написал 09 ноября 2006 12:55

Гарантия - отделить котлеты от мух, т.е. английский текст от русского, и редактировать (в т.ч. проверять орфографию) раздельно. Лучше всего с самого начала превратить отсканированный текст в таблицу, поскольку любой словарь - это база данных, т.е. совокупность таблиц и связей между ними. А дальше можно производить с материалом любые необходимые манипуляции с помощью подходящей СУБД (Excel тоже подойдет). Такой подход гарантирует сохранение контроля над материалом, облегчает массовые операции (поиск, замена и т.д.) и обеспечивает целостность данных (словарный статей).

tolik (LingvoDa) написал 15 ноября 2006 10:04

не будет большой беды, если в слове table часть букв будет русская, а часть английская. Ну подумаешь не найдёт в поиске по внутренностям статей, это не настолько нужно. Другое дело, когда в примерах расставляется широкое тире между русской и английской частью. Что делать, запускать поиск по тексту на слова типа "a" tсли англ.-русс., "y" если фран.-русс. и исправлять в самом проекте сканирования FineReader.

Маринала (LingvoDa) написал 09 декабря 2006 02:25

tolik
не будет большой беды, если в слове table часть букв будет русская, а часть английская


Еще какая беда! Во-первых, слово "table" в этом случае встанет не на свое место, а ниже по списку (т.е. алфавитный порядок будет нарушен - это уже проверено!), а во-вторых, это слово уже нельзя будет найти с помощью функции поиска (тоже поверено). В любом случае, это слово для словаря можно будет считать потерянным.

Close