Fast & Dirty эксперименты (сканирование)

Я взял весь текст "Путь к Земле" из библиотеки lib.ru
и первую картинку из djvu файла. Сделал RTF файл в OpenOffice 2.1
под Win и вставил в начало файла картинку.
Потом сохранил в .odt, .rtf и .pdf

RTF файл: 3.6 Мб
ODT файл: 237.6 Кб
PDF файл: 251.3 Кб (качество компрессии картинок установлено на 75)

Далее открыл rtf файл в Linux OpenOffice 2.0 и
сохранил в .odt
Размер: 239.2 Кб

Файл, созданный в Win OpenOffice, открывается в Linux и обратно

Forums: 

А RTF Zip ?

Сжатый 7zip-ом с максимальным сжатием - 1157 Кб. Не так уж много, конечно же, но.
Внедренный JPEG - 147 Кб размером 746х598. В RTF-е он, видимо, лежит простым битмапом.

---------------------------
Истина где-то рядом
www.litres.ru/vitaliy-samurov/dozvonitsya-do-devy/

По-моему, да, лежит битмапом. В этом и преимущество - сжатие без потерь. Ведь тот же tiff или gif по сути тоже пожатые без потерь битмапы. Только оригинал нужно сканировать не в JPEG, а в TIFF или bitmap, тогда будет смысл.

А насколько RTF переносим? В MSWord'е и MSWordPad'е один и тот же RTF'ник даёт существенно разное форматирование.

Специально этот вопрос не изучал, просто проблем с открытиями RTF в офисах 95-2007 пока не было. Форматирование разное - это естественно. Например, wordpad не поддерживает выравнивание по ширине.

Намного хуже. Слетают таблицы, картинки. В-общем, чтобы создать RTF'ник, который прилично бы выглядел (я даже не говорю о "похоже") в обоих микрософтовских редакторах, надо быть семи пядей во лбу. Боюсь, что это будет практически plain text. :-)

Я думаю, это проблема WordPad, а не RTF :) Редактор убогий, это понятно (не будет же MS давать бесплатного конкурента своего Word), причем со времен Win95 практически не менялся.

Хит-парад. В-общем, у нас получается небольшой хит-парад:

  1. rtf.zip, rtf.gz
  2. odt
  3. djvu, pdf

Сам я на стороне odt-файлов для редактирования и создания pdf'ов. То, что этот формат стимулирует переход на свободные продукты, считаю хорошим делом. А если не получается выложить в odt, то на стороне djvu-шников. Т.к. они занимают на порядок меньше места, чем pdf'ки и поддерживают cut&paste при наличии распознанного слоя.

Насколько я понял, ты более консервативен и советуешь rft'ки и pdf'ки из-за большей распространённости MSOffice'а и Acrobat Reader'а. rtf'ки действительно использовать осмысленно, т.к. в случае краха фирмы Sun кто вспомнит об odt'шках?

Тут дело в другом. Есть 2 задачи:
- хранение отсканированного оригинала
- создание из него файлв для распространения

Если распознавания нет, то оригинал в TIFF, для публикации - djvu.

Если распознаем, то сохраняем в RTF и из него PDF.

ODT, как я понял из тестов Vitasam, картинки внутри себя жмет с потерями, а RTF - нет, отсюда и мой скепсис.

Подсмотрел я тут доки по OpenDocument. Там пишется, что изображение остаётся в том формате, в котором оно было вставлено в документ: вставляли из jpg - будет jpg, вставляем tiff - останется tiff, так что - никаких потерь)))

When you insert an image into an OpenDocument file, the application will store a
copy of that image file in the Pictures directory and assign it an internal filename
that, in the case of OpenOffice.org, looks something like this:
100000000000001800000018374E562F.png. The filename extension
corresponds to the type of the original graphic.

Тогда ODT и RTF.ZIP должны давать сравнимые цифры, что не показывает опыт Vitasam. Сам, к сожалению, провести аналогичный не могу.

Лично проверил - в каком формате вставляю - в таком он и сохраняется в odt (odt ведь - это просто zip-архив c xml-файлами и картинками. Добавляемая в документ картинка просто помещается в папку pictures). А rtf.zip получился больше скорее всего из-за того, что zip не умеет сжимать хорошо битмаповое изображение.

А вы не могли бы сделать 2 файла для сравнения: ODT и RTF.zip поместив туда одну и ту же картинку в пожатом TIFF?

Создал odt - документ, вставил в него 5-мбайтный tiff. Получил 150 кб odt. Открыв odt архиватором, убеждаюсь, что внутри лежит исходный 5мб tiff, бит в бит совпадающий с исходным(проверено посредством diff). Итог - odt не изменяет изображения, вставленные в документ.
rtf.zip с той же тифкой весит 180кбайт.

Спасибо, исчерпывающий ответ.

---------------------------
Истина где-то рядом
www.litres.ru/vitaliy-samurov/dozvonitsya-do-devy/

.
> Если .
> Если распознавания нет, то оригинал в TIFF, для публикации - djvu.
> Если распознаем, то сохраняем в RTF и из него PDF.

А чем текстовые слои в djvu не устраивают? djvu с распознанным текстом занимают намного меньше места, чем громоздкие pdf'ы.

Для распознанных документов разницы в размере при одинаковом качестве практически нет. У PDF мощнее форматирование, ведь он предназначен в том числе и для макета, идущего в печать.