Распознавание текста с помощью Microsoft Office
21.09.2004 | 14:31
Среди стандартных офисных задач одной из основных была и остаётся задача, связанная с распознаванием текста. Научить компьютер читать пытались достаточно долго и нудно, однако относительно недавно с развитием компьютерных технологий с мёртвой точки ситуация всё же сдвинулась. В результате стали появляться различные коммерческие программы, решающие задачи подобного рода и рассчитанные на массового пользователя. Не обошёл эту проблему и наш герой. Так, начиная с XP-версии, MS Office также научился читать. Как именно этим воспользоваться мы и разберёмся в этом обзоре.
Итак, в который раз обратимся к какому-нибудь конкретному примеру. Пусть у нас имелся некоторый текстовый документ, с которым мы активно работали, и который при определённых обстоятельствах исчез (нечаянно был удалён, остался несохранённым, полетел винчестер, компьютер упал со стола и т.д.). И тут выясняется, что его печатный вариант в 50-ти страницах у нас остался. Не набирать же всё заново… И вот здесь приходит на помощь программа под названием Microsoft Office Document Imaging, особенно если под рукой оказался сканер.
Ну, что же, приступим. Запускаем приложение Microsoft Office Document Imaging, которое обычно для 2003-й версии расположено следующим образом:
Пуск → Программы → Microsoft Office → Средства Microsoft Office → Microsoft Office Document Imaging
Далее загружаем необходимый файл. Здесь следует заметить, что изображение должно быть в формате TIFF. Если же входной файл имеет другой формат, то его следует конвертировать, воспользовавшись для этого, например, ACDSee или другой утилитой. В итоге у нас должна получиться следующая картина:
После чего переходим к меню настроек.
Сервис → Параметры
Здесь, в первую очередь, следует указать язык распознаваемого текста (после первой попытки распознать тестовый текст я пришел в ужас – было распознано лишь слово «Word», однако выбор русского языка спас положение). Если же текст содержит слова нескольких языков, то необходимо выбрать доминирующий.
Кроме того, здесь присутствует масса прочих настроек, которые также рекомендуется заполнить. После всего этого можно, наконец, приступать непосредственно к распознаванию.
Сервис → Распознать текст…
Ну и наконец спустя некоторое время (для больших документов, к сожалению, этот показатель весьма велик), когда распознавание будет завершено, полученный текст можно смело отправлять в MS Word, воспользовавшись специальной функцией в том же пункте меню. Ну а дальше просто остаётся отредактировать полученное и сохранить результат…
В заключение хотелось бы сказать, что, несмотря на всю лёгкость того, что мы сейчас проделали, работа утилиты распознавания текста в Microsoft Office всё равно далека от идеала и с самостоятельными коммерческими продуктами ей конкурировать никак не приходится. Однако всё же нельзя не отметить, что она здорово развивается (и это хорошо заметно при переходе на 2003-ю версию «офиса») и при этом достаётся пользователю совершенно бесплатно в стандартной поставке пакета. А стало быть, при необходимости можно работать и с ней (или, по крайней мере, попытаться)…
Иван Щербаков
Если вы заметили орфографическую ошибку,
выделите ее мышью и нажмите Ctrl+Enter
Поделиться: