Журнал Компьютерра - Журнал «Компьютерра» №33 от 13 сентября 2005 года
Андрей Ященко
директор по развитию марки Salute
К аналогичным, я думаю. Дело в том, что существует ряд специализированных крупных таможенных брокеров, практически одинаковым образом растаможивающих схожие товары: компьютерные комплектующие, бытовую электронику, мобильные телефоны. Так что весь вопрос - в чем именно будут заинтересованы соответствующие (или не совсем соответствующие, как в случае с телефонами) органы при проведении своих рейдов.
С другой стороны, компьютерный рынок старше, чем рынок мобильных телефонов, так что и опыта по «борьбе» с таможней здесь накоплено больше, да и было время цивилизоваться. Некоторые группы товаров уже в основном растаможиваются «в белую». Тем не менее хаос на таможне (отказ некоторых перевозчиков возить грузы, задержки в оформлении грузов у более надежных перевозчиков), вкупе с конфискацией складов у крупных дистрибьюторов, в любом случае должны были бы привести к определенному дефициту на рынке.
Автор: Сергей Вильянов.
ОГОРОД КОЗЛОВСКОГО
Клёвый чтец №8, или Новый сказ о Левше
«Клёвым чтецом» я перевел-обозвал FineReader в какой-то давней своей компьютерной брошюрке, еще до начала сотрудничества с «Компьютеррой», году, кажется, аж в 96-м, то есть, по скорости того компьютерного времени, - в далеком-далеком, практически незапамятном прошлом. Это как раз была третья версия, которая, после не вполне удовлетворительных мучений со второй, показалась мне верхом совершенства и одной из Сияющих Вершин брезжущего на близком - рукой подать - горизонте Искусственного Интеллекта, взятой Высокой Наукой вкупе с не менее Высокими Технологиями. Я увлеченно тестировал «тройку», сравнивая ее с конкурентами, как отечественными, так и зарубежными, - и она, подлинная «птица», легко обходила их всех на любых поворотах.
Сейчас уж не припомню, писал ли я отдельно о версиях следующих: с четвертой по седьмую, - очень может быть, что и нет: каждая очередная, конечно, была лучше предыдущей: качество распознавания - как божились PR-менеджеры, возрастало то на пять процентов, то на одиннадцать; рос и список распознаваемых языков, - включая даже такие вполне искусственные, как языки программирования (чтобы оцифровать покрытые пылью рулоны старых листингов) или чуть ли не эсперанто; появлялись всё новые возможности в смысле сохранения верстки документа и форматов; хорошели кнопочки тулбара; - и прочее, и прочее, и прочее. Конечно, это не могло не радовать, но при удовлетворении моих реальных потребностей: распознавание обложек компакт-дисков, книжных текстов и журнальных статей, - улучшения сказывались не особенно. Впрочем, ситуация естественная: при достижении любым продуктом некоего (довольно высокого) уровня дальнейшие усовершенствования идут больше по мелочам: возьмите хоть автомобили. То есть сказывались, конечно, однако недостаточно, чтобы дать повод для отдельного «Огорода».
Но вот вышла «восьмерка» - и повод такой, похоже, дала.
Список ее отличий от «семерки», выданный на презентации, занимает десять (!) страниц, включая в себя не только чисто эстетические удовольствия вроде появившихся словарных баз для словенского и башкирского языков и добавившегося в двух ипостасях - кириллической и латинской - уйгурского[Впрочем, относительно уйгурского и башкирского - это только для меня удовольствие чисто эстетическое, а для уйгуров и башкир - практическое. А они ведь - покупатели], но и практическое: например, понимание картинок в формате компрессированного (методом LZW) tiff’а, о кочку которого я в прежние времена частенько спотыкался. Повысившаяся скорость распознавания оставила меня практически равнодушным, поскольку и раньше она не казалась недостаточной: мне ведь, слава богу, не приходится просиживать за этим занятием дни напролет, - а вот понимание гиперссылок, их проверка в процессе распознавания и перенос в текст - это представилось блестящим, едва ли не цирковым трюком, и я стал всерьез подумывать о переводе в цифровую форму всего моего многокилограммового «Огородного» архива - с целью освобождения «тещиной комнатки». Появились радости и для бюрократов, для каторжной офисной работы, - но к интересам бюрократов я всю жизнь относился с неким брезгливым равнодушием… Впрочем, всё это вполне уложилось бы в стандартные улучшения от версии к версии, если б не…
Если б не объявленная (и, как выяснилось, неплохо реализованная) поддержка распознавания документов, снятых цифровыми аппаратами! Не могу сказать, что это революция, сравнимая с прорывом цифры в фотодело, но - безусловно заметный шажок, возможно, эту революцию завершающий. И впрямь: цифровой фотоаппарат сегодня есть если не у каждого, то у каждого, скажем, третьего, и, понятно, что переснять им пару нужных страниц учебника или справочника куда удобнее, чем предполагающим специальную стационарную обстановку сканером.
Косвенно эту материю я уже задевал в прошлом «Огороде» («Восточный DocExpress»)[Поскольку вегетационный период у овощей разный, редакция решила пропустить FineReader вперед. А DocExpress как раз через недельку и поспеет. - Прим. ред], когда писал, что цифровой фотоаппарат в ряде случаев удобнее любого, даже карманного (не говоря уж о настоящем) сканера, - но не мог и не признать, что результаты распознавания после фотосъемки выходят очевидно худшими. Дело понятное: оптика универсальных аппаратов недостаточно жестка, получаемое разрешение заметно ниже, чем у сканерных картинок, освещение, как правило, недостаточное и неравномерное, и вообще… И вот, программисты из ABBYY решили попробовать приспособить программу к этим «плохим» картинкам (предупредив, что лучше снимать камерами не менее чем с четырехмегапиксельными матрицами). И приспособили.
Я провел следующий тест: взял полосу «Компьютерры» с собственным «Огородом» («Компьютерру» потому, что она напечатана на полуглянцевой, бликующей бумаге и довольно мелким шрифтом; если бумага надежно матовая, можно у фотоаппаратов включать вспышку, что сразу резко повышает качество снимка), отсканировал ее сперва недорогим планшетником (Astra 4700 от Umax), потом - безо всякого специального света, но со штатива - снял ее же Olympus’ом Е-20 (5 мегапикселов) и шестимегапиксельным Exilim’ом Pro 600 от Casio (у него есть специальный режим для съемки документов, - распознавальщики и производители цифровых фотоаппаратов идут навстречу друг другу!). Все картинки скинул на винчестер и вызвал их для распознания сначала седьмым, а потом - восьмым «Клёвым чтецом».
Сканерная картинка в обоих случаях распозналась одинаково: практически стопроцентно, только после «восьмерки» гиперссылки, при сохранении в PDF, работали! Картинку с Olympus’а «семерка» распознала процентов эдак на шестьдесят, а «восьмерка» - ну… на семьдесят. Другое дело - картинка с Casio, у которого был включен «документ-режим». Там процент «семерки» повысился до восьмидесяти, а «восьмерки» - только, может, процента на три не дотянул до сотни! То есть разница налицо, причем видно, что аппаратная составляющая тоже играет свою, и немалую, роль. Короче: чудес, разумеется, не бывает, но если подходить к проблеме с умом и пониманием - можно добиться результатов, которые «третья» версия лет восемь назад давала при картинке со сканера.
В общем, браво, ABBYY! Верной дорогой идете, товарищи! Есть шанс дожить до времени, когда цифровики будут комплектоваться FineReader’ом Lite, как сегодня комплектуются сканеры.
Покончив с изюминкой «восьмерки», перейдем к неприятному, обозначенному в заголовке как «Новый сказ о Левше». Помните, в чем там, у Лескова, была главная грустная заковыка? Левша сумел подковать микроскопическую блоху и даже на гвоздиках автограф накарябал, - а сообразить, что после подковки она перестанет скакать - на это ума не хватило. Вот и FineReader, еще с самых первых своих версий, ковать учится все изощреннее, а думать, увы, нет.
Поясню в чем дело. Сканируется, положим, задняя обложка компакт-диска со списком треков, номера которых частенько набираются каким-нибудь высокохудожественным шрифтом или заключаются в квадратики или обводы другой формы. «Клёвому чтецу», несмотря на шрифт и квадратики, удается-таки разобрать два-три (а иной раз - и пять-шесть) номеров правильно. Но догадаться, что это - нумерованный список и, следовательно, нераспознанный между «тройкой» и «пятеркой» значок вероятнее всего есть «четверка» - это уж, извините, кишка тонка. Или еще пример, с той же обложки: фамилии авторов песни, заключенные в круглую скобку, распознаются не всегда точно: «(Josea - Taub» в четырех случаях распознаны как «Qosea - Taub», а в трех оставшихся - правильно. Честное слово, семи пядей во лбу не надо иметь, чтобы - по шрифту ли, по расположению - догадаться, что эта часть двадцатидвухпозиционного списка вся заключена в скобки, а нераспознанный Qosea есть не что иное, как распознанный рядышком Josea, - а вот поди ж ты!
Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Журнал Компьютерра - Журнал «Компьютерра» №33 от 13 сентября 2005 года, относящееся к жанру Прочая околокомпьютерная литература. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.

