[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]
Анон, мне внезапно задумалось перевести всю библиотеку в pdf, а затем проиндексировать её. Есть ли в какой-нибудь(например в абби-как-его там, он же вроде лучший в плане алгоритмов распознования?) такой фокус, проверка распознанного текста словарём, и далее вставка нераспознанных/неправильных слов/символов/картинок в виде изображения? Хотелось бы перегнать сканы и дежавьюшки в такой формат. Алсо посоветуй мне хорошую утилиту для индексирования файлов, под линукс.Всё остальное желательно тоже под линукс, соответственно рад буду и скриптам по рекурсивному перегону djvu, doc, rtf и chm в pdf(хотя есть ли смысл? большая часть программ вроде и доки и кхм индексирует), с дальнейшим же рекурсивным распознованием. Доставишь хоть часть- я подниму сервер с 0.5 тб. технической литературы специально для новеря.
Анон, мне внезапно задумалось перевести всю библиотеку в pdf, а затем проиндексировать её. Есть ли в какой-нибудь(например в абби-как-его там, он же вроде лучший в плане алгоритмов распознования?) такой фокус, проверка распознанного текста словарём, и далее вставка нераспознанных/неправильных слов/символов/картинок в виде изображения? Хотелось бы перегнать сканы и дежавьюшки в такой формат. Алсо посоветуй мне хорошую утилиту для индексирования файлов, под линукс.
Всё остальное желательно тоже под линукс, соответственно рад буду и скриптам по рекурсивному перегону djvu, doc, rtf и chm в pdf(хотя есть ли смысл? большая часть программ вроде и доки и кхм индексирует), с дальнейшим же рекурсивным распознованием. Доставишь хоть часть- я подниму сервер с 0.5 тб. технической литературы специально для новеря.
> перевести всю библиотеку в pdf, а затем проиндексировать еёЧуувааак, ты что курил? Зачем хранить данные в формате который как бы должен быть защищен от индексирования? Или ты говоришь о бумажной библиотеке?> Алсо посоветуй мне хорошую утилиту для индексирования файлов, под линукс.Тебе для индексирования файлов по названиям или по содержимому?
> перевести всю библиотеку в pdf, а затем проиндексировать её
Чуувааак, ты что курил? Зачем хранить данные в формате который как бы должен быть защищен от индексирования? Или ты говоришь о бумажной библиотеке?
> Алсо посоветуй мне хорошую утилиту для индексирования файлов, под линукс.
Тебе для индексирования файлов по названиям или по содержимому?
>>26470А в какой ещё? Я так понял, что текст в пдфках индексировать можжет большинство программ.Естественно по содержимому. Зачем мне имена тысяч книг из разных торрентов?
>>26470А в какой ещё? Я так понял, что текст в пдфках индексировать можжет большинство программ.
Естественно по содержимому. Зачем мне имена тысяч книг из разных торрентов?
>>26473Опять же, а какой есть другой формат для быстрого просмотра картинок вперемешку с текстом?
>>26474html
>>26486да ты совсем, блджад, пизданулся!
>>26487что не так с html? doxygen и подобные утилиты документацию почему-то в html генерируют, а не в пдф.
>>26488мне не нужна документация. мне нужна удобная библиотека. просматривать хтмл книгу нихуя не удобно. кликать по ссылкам в книге нихуя не удобно. хтмл неудобен.
>>26489Что же такого неудобного в html книге чего нет в других форматах?
>>26490это для меня гавно плохо зделано тупо. трудно хранить, трудно обновлять, трудно читать. не подходит короче, не надо спорить, ты формат электронной книги предлагай.
>>26492Ничего не понял в твоих объяснениях. Совсем ничего. Сколько ни читал книги в html - каких-либо проблем это не вызывало, разве что не все устройства могут переварить html файл размером больше метра. Олсо старый добрый txt тоже хорош, если книга без картинок.
>>26493вот о том и речь. а у меня целые справочники, которые надо в виде текста со словами, диаграммами, картинками представить, да так, чтобы это было на нетбуке удобно читать.
>>26494Тогда тем более html, поскольку у него существует возможность сделать довольно мягкое форматирование.
>>26495ну не скажи. и читать его нечем, и масштабируется он уебански, и вообще медленный это формат, он на страницы рассчитан.ну что, блять, за привычка спорить.
>>26495ну не скажи. и читать его нечем, и масштабируется он уебански, и вообще медленный это формат, он на страницы рассчитан.
ну что, блять, за привычка спорить.
>>26496посмотри как выглядит например http://zhurnal.lib.ru/ очень даже читабельно и масштабируемо под любые мониторы.
Собственно, да, чем конкретно html не угодил? Поддерживаю предыдущего оратора. Если убрать из текста все уебанские приёмы форматирования и оставить только исконно расово верные <h1...7>, <img> и <a>, то получится вполне себе даже пиздато и очаровательно индексируемо, а читать можно будет даже в сыром виде как текст.
>>26510книга на 1500 страниц.часть символов- картинки точно на месте буковицы.на каждой почти странице- графики.из всего этого мы сделаем вывод: мой нетбук обосрётся такие документы обрабатывать.
>>26510
из всего этого мы сделаем вывод: мой нетбук обосрётся такие документы обрабатывать.
>>26511Ну тогда, DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах. DjVu стал основой для нескольких библиотек научных книг.
Одну из главных вещей забыли: pdf(ну и отчасти djvu) читается на очень многих девайсах, начиная с телефоном, заканчивая MID и psp.
>>26513его содержимое вообще возможно какой-нибудь существующей тулзой индексировать?
http://dvach.hut1.ru
как ни странно, под линупсы оказалось целых 4 мощных поисковика, помимо гуглписечки. сейчас буду выбирать, но похоже лучшее- recoil, оно и дежавьюшки индексирует.
>>26778Названиями остальных не поделишься?
>>26783тащемто ПЕРВАЯ СТРОЧКА в википедии.в порядке крутости:BeagleTerrierStrigiTracker
>>26783тащемто ПЕРВАЯ СТРОЧКА в википедии.
в порядке крутости:
Бамп.
возвращаюсь к этой теме. я пока шарюсь в гоогле, размышляю, хотелось бы узнать следующее:кто-нибудь знает, как проверить pdf и djvu документ в плане того, был ли он переконвертированн в частично текст/частично картинки, или целиком состоит из изображений.
возвращаюсь к этой теме. я пока шарюсь в гоогле, размышляю, хотелось бы узнать следующее:
кто-нибудь знает, как проверить pdf и djvu документ в плане того, был ли он переконвертированн в частично текст/частично картинки, или целиком состоит из изображений.
>>26778>recoll
>>26778
>recoll
реквестирую образец скрипта для рекурсивного применения команды ко всему в папке.реквестирую скрипт для рекурсивного переименования всего в папке в нижний регистр.как вы уже догадались, под баш.
реквестирую образец скрипта для рекурсивного применения команды ко всему в папке.
реквестирую скрипт для рекурсивного переименования всего в папке в нижний регистр.
как вы уже догадались, под баш.
>>28628> реквестирую скрипт для рекурсивного переименования всего в папке в нижний регистр#!/bin/bashperfile() {dst="`echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю/'`"if [ "$1" != "$dst" ] ; then mv -vi "$1" "$dst" ; fi}perdir() {find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; donels | while read file ; do perfile "$file" ; done}perdir
>>28628
> реквестирую скрипт для рекурсивного переименования всего в папке в нижний регистр
#!/bin/bash
perfile() {dst="`echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю/'`"if [ "$1" != "$dst" ] ; then mv -vi "$1" "$dst" ; fi}
perdir() {find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; donels | while read file ; do perfile "$file" ; done}
perdir
почти всё раскидал и рассортировал. сейчас буду окрить пытаться.
>>28631все прощеfor fname in *do mv -ni $fname ${fname,,}done
>>28631все проще
for fname in *do mv -ni $fname ${fname,,}done
for fname in *
do
mv -ni $fname ${fname,,}
done
>>28677Нет рекурсивности.Догадайся как отработает твоя программа, нарвавшись на имена файлов с пробелами.Про то что файл может по русски называться ты тоже не подумал.
>>28677
>>28679спасибо, кстати.
>>28679Рекурсивность я специально не писал, просто хотел показать более простое переименование. Пробелы вообще не проблема, а файлов с русскими именами у меня практически нет.
Кстати, кто-нибудь использует специальные "катологизаторы" для книг? Самому всё страшно лень организоваться
чудесно. пока что я вижу только один способ получить список не отокреных файлов- в скрипте вызывать утилиту, извлекающую текст из пдфки, измерять вес файла, записывать/нет его в список. но это же ебанатство на день!
>>28776> но это же ебанатство на день!Поставь скрипт на ночь.> список не отокреных файловЯ так и и не понял, что ты имел в виду.
>>28776
> но это же ебанатство на день!
Поставь скрипт на ночь.
> список не отокреных файлов
Я так и и не понял, что ты имел в виду.
>>28779я имел в виду файлы, которые состоят из сканов страниц, а не из картинок и распознанного текста. к слову, нормальное распознование, не превращающие документ в кашу возможно есть в файнридере, но там об обработке скриптом речи не идёт, такие дела. да даже просто добавить невидимый слой для поиска- в питухах непонятно как, а в акнеподелии никаких скриптов, нужно каждый документ руками открывать и тыкать в кнопочки. ебаный нахуй.
>>28780Тебе распознание текста нужно для поиска в документах? Если да, то вполне сойдет и каша из слов, главное чтобы слова были нормально распознаны. Просто искать придется без учета порядка слов да и только.
>>28782ну да, естественно, просто нужно распознанные слова ещё и в скрипте запихать в невидимый слой под обычную пдфку. а с добавлением слоя в скрипте пока у меня проблемы.
ещё и гтумб после апдейта сломался. ну блять.
>>28784pdf2ps source.pdf out1.psдобавляешь индексируемый слойpdf2ps source.pdf out2.psdiff out1.ps out2.psсмотришь, что поменялось, пытаешься воспроизвести аналогичные действия скриптом
>>28784
pdf2ps source.pdf out1.ps
добавляешь индексируемый слой
pdf2ps source.pdf out2.psdiff out1.ps out2.ps
смотришь, что поменялось, пытаешься воспроизвести аналогичные действия скриптом
>>28785ещё и говна в интерфейс подлили. ёбаные прыщеинноваторы. я негодую.
>>28792хм, зато теперь тумбнэйлы грузятся быстро.
>>28786>добавляешь индексируемый слойвот в этом-то и вопрос. как?
>>28786
>добавляешь индексируемый слой
вот в этом-то и вопрос. как?
после продолжительного лурканья я таки нашел способ! причём, как говорится искаропки. вот тут: http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/ некий человек, подозрительно похожий на леонида василевского, даже написал скрипт.а оказывается, есть такая утилита hocr2pdf, которая именно добавляет невидимый слой из формата hocr, ещё и точно оберегая расположение текста в документе. только кунеинформ пиздец медленный, а hocr2pdf у меня в портаже нет, такие дела. сейчас будем ковыряться.
после продолжительного лурканья я таки нашел способ! причём, как говорится искаропки. вот тут: http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/ некий человек, подозрительно похожий на леонида василевского, даже написал скрипт.
а оказывается, есть такая утилита hocr2pdf, которая именно добавляет невидимый слой из формата hocr, ещё и точно оберегая расположение текста в документе. только кунеинформ пиздец медленный, а hocr2pdf у меня в портаже нет, такие дела. сейчас будем ковыряться.
>>29449а это оказывается утилита из пакета exactimage. его, впрочем, тоже в портаже нет.
>>29450а, нет, был, но хитро запрятаный.
>>28631ты кстати в скрипте cd .. забыл.#!/bin/bashperfile() {dst="echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$1" != "$dst" ] ; then mv -vi "$1" "$dst" ; fi}perdir() {find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; donels | while read file ; do perfile "$file" ; donecd .. ;}perdir
>>28631ты кстати в скрипте cd .. забыл.
perfile() {dst="echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$1" != "$dst" ] ; then mv -vi "$1" "$dst" ; fi}
echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'
perdir() {find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; donels | while read file ; do perfile "$file" ; donecd .. ;}
>>29467и ещё лучше делать mv -vn, а не -vi, потому что всё равно консоль заспамится остальными сообщениями и все файлы в директории останутся непереименованы.
>>29467Точно забыл. Извиняюсь.>>29468И опять забыл что основной поток функции уже используется. Тогда уже лучше сделать cat /dev/stderr | mv -vi ...Тогда запрос на перезапись будет происходить с клавиатуры.
>>29475а вот совсем правильная версия:#!/bin/bashperfile() {dst="echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$1" != "$dst" ] ; then echo "$file" "\n" "$dst" ; fi}perdir() {find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; donefor f in * ; do dst="echo $f | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$f" != "$dst" ] ; then mv -nv "$f" "$dst" ; fidonecd .. ;}perdirа то твоя на множественных пробелах глючила.
>>29475а вот совсем правильная версия:
perfile() {dst="echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$1" != "$dst" ] ; then echo "$file" "\n" "$dst" ; fi}
perdir() {find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; donefor f in * ; do
dst="echo $f | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$f" != "$dst" ] ; then mv -nv "$f" "$dst" ; fi
echo $f | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'
donecd .. ;}
а то твоя на множественных пробелах глючила.
>>29482нет, всё равно файнд пробелы теряет.
>>29488вернее в cd они теряется.
>>29488> пробелы теряетdst="`echo "$1" | sed ...
>>29488
> пробелы теряет
dst="`echo "$1" | sed ...
>sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"Да вы же упоротые.% echo 'НянямУ няНЯшу НяняКА' | ghc -e 'interact (map Data.Char.toLower)'няняму няняшу няняка
>sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"
Да вы же упоротые.
% echo 'НянямУ няНЯшу НяняКА' | ghc -e 'interact (map Data.Char.toLower)'няняму няняшу няняка
% echo 'НянямУ няНЯшу НяняКА' | ghc -e 'interact (map Data.Char.toLower)'
няняму няняшу няняка
>>29500Size of files: 70,020 kBКак-то многовато для простой операции.
>>29500
Size of files: 70,020 kB
Как-то многовато для простой операции.
>>29501Нищеброд чтоле?
>>29492>вернее в cd они теряется>dst="`echo "$1" | sed ...да ты снайпер.вернее сд не может перейти в каталог с несколькими пробелами в названии. сраный синтаксис, сраные символы переноса.
>>29492
>вернее в cd они теряется>dst="`echo "$1" | sed ...
да ты снайпер.вернее сд не может перейти в каталог с несколькими пробелами в названии. сраный синтаксис, сраные символы переноса.
всё, заработало.
>>29506а, нет, всё равно отрезаются где-то пробелы в конце названия. ну ёб.
>>29507и не где-то, а в сд.
>>29508и не в сд, а в while read
охвау, всех конечно уже заебало, но я сделал этот скрипт правильным:#!/bin/bashperdir() {find . -maxdepth 1 -mindepth 1 -type d | (IFS='\n' while read dir docd "$dir"IFS=' \t\n'perdir ; done)for f in * ; dodst="echo $f | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"if [ "$f" != "$dst" ] ; then mv -nv "$f" "$dst" ; fidonecd .. ;}perdir
охвау, всех конечно уже заебало, но я сделал этот скрипт правильным:
perdir() {find . -maxdepth 1 -mindepth 1 -type d | (IFS='\n' while read dir docd "$dir"IFS=' \t\n'perdir ; done)for f in * ; do
>>29510 лолнет, немного не так, но починил.
ламера
>>29513 ты хуй
поставил декодировать неотокреные дежавьюшки. чувствую, они будут конвертироваться несколько дней.
>>29515слишком долго. решил просто отокрить дежавьюшки для поика непосредственно в них. что характерно, решение искаропки нашлось сразу. опенсорс в обращении почему-то удобнее чем проприетарщина. наверное благодаря скриптам.
>>29517и, блджад, распознать текст в дежавью- операция на несколько порядков быстрее чем преобразовать дежавью в пдф.
>>29500% echo 'НянямУ няНЯшу НяняКА'|perl -e 'binmode(STDIN,":utf8");binmode(STDOUT,":utf8");print lc(<STDIN>)' няняму няняшу няняка%%ПЕRЛ%%
>>29500% echo 'НянямУ няНЯшу НяняКА'|perl -e 'binmode(STDIN,":utf8");binmode(STDOUT,":utf8");print lc(<STDIN>)' няняму няняшу няняка
%%ПЕRЛ%%
дежавьюшки всё распознаются..не могу найти нормальную тулзу для разделения пдфок. все на джаве(ёбаный стыд), пдфтк вообще не собирается(а что собственно от джавы ждать).
дежавьюшки всё распознаются..
не могу найти нормальную тулзу для разделения пдфок. все на джаве(ёбаный стыд), пдфтк вообще не собирается(а что собственно от джавы ждать).
>>29756собрал таки, джава с оптимизациями не дружит.
>>29764а ещё я почистил и собрал свою пневматику.
>>29765А там где ты взял эту картинку еще есть такие? Или это очередной рэндом?
>>29796это сибирь-тян. есть на сибирьчане и в ычанском /тян
кто-нибудь из линупсоидов, попробуйте установить вот эту библиотеку:http://jwilk.net/software/python-djvulibreу меня выдаёт /_documents/python-djvulibre-0.1.17/setup.py: line 17: python-djvulibre is a set of Python <http://python.org>_ bindings for theDjVuLibre <http://djvu.sf.net/>_ library, an open source implementation ofDjVu <http://djvu.org/>_.: No such file or directory/_documents/python-djvulibre-0.1.17/setup.py: line 29: syntax error near unexpected token `('/_documents/python-djvulibre-0.1.17/setup.py: line 29: `'''.split('\n')', чзх?а других путей нормально оцифровать пдфки я не вижу. алсо, пдф- проприетарное говно, вчера весь день ебался со скриптами.
кто-нибудь из линупсоидов, попробуйте установить вот эту библиотеку:http://jwilk.net/software/python-djvulibre
у меня выдаёт /_documents/python-djvulibre-0.1.17/setup.py: line 17: python-djvulibre is a set of Python <http://python.org>_ bindings for theDjVuLibre <http://djvu.sf.net/>_ library, an open source implementation ofDjVu <http://djvu.org/>_.: No such file or directory/_documents/python-djvulibre-0.1.17/setup.py: line 29: syntax error near unexpected token `('/_documents/python-djvulibre-0.1.17/setup.py: line 29: `'''.split('\n')', чзх?
Python <http://python.org>
DjVuLibre <http://djvu.sf.net/>
DjVu <http://djvu.org/>
а других путей нормально оцифровать пдфки я не вижу. алсо, пдф- проприетарное говно, вчера весь день ебался со скриптами.
>>29854У меня аналогично. Думаю что можно просто ручками скопировать эти файлы в каталог где там у питона либы лежат
где там у питона либы лежат
>>29856где там у питона либы лежат?
>>29765какая у тебя пневма?
>>29864ставишь питон, ставишь какую-нибудь либу на него, потомupdatedblocate <libname>если мало интересного то можно еще попробоватьlocate .py
>>29864ставишь питон, ставишь какую-нибудь либу на него, потом
updatedblocate <libname>
если мало интересного то можно еще попробовать
locate .py
>>29865ижик обычный.
>>29890ижики разные бывают, рискну предположить что у тебя 38-й, поскольку обычный, сам гордый владелец двух МуРок, вот планирую накопить на GunPower
>>29854у нас тут кто-нибудь в питоне разбирается? потому что там нужно сначала скомпилировать библиотеки. пока я всё окрю русские дежавьюшки, но как бы было бы неплохо и с пдф разобраться.
>>30067думаю что это делается как-то так http://docs.python.org/library/py_compile.html или так http://docs.python.org/library/compileall.html
>>30067 Компилить библиотеки для использования не обязательно. Главное, чтоб они импортились нормально, а уж в исходниках они или скомпилены - все равно работать будут.
Кто-нибудь разбирается с dpi? если я ресайзю разные пикчи в 900dpi, количество пикселов в выходной картинке всегда будет одинаковым?
>>30074 dpi = dots per inch, т.е. сколько пикселей в одном дюйме. Этой информации тебе недостаточно?
>>30075мм, скажи точно, >количество пикселов в выходной картинке всегда будет одинаковым?для разных исходников?меня интересует перекодирование, и я могу ошибаться.алсо нашел способ обрабатывать пдфки.
>>30075мм, скажи точно, >количество пикселов в выходной картинке всегда будет одинаковым?для разных исходников?
меня интересует перекодирование, и я могу ошибаться.
алсо нашел способ обрабатывать пдфки.
>>30076 Я не понимаю, что ты называешь разными источниками.
>>30078да я уже разобрался сам.
похоже что заработал скрипт для пдфок. из всей ебли с конвертацией и декодированием я вынес две простые вещи:cuneiform- говно.imagemagik- ещё большее говно.
>>30138С первым не работал, но imagemagick то за что? Вполне годный графический редактор, если как следует разобраться.
>>30143конвертирует медленно и с ошибками.
>>30148Обработка изображений процесс по определению весьма ресурсоемкий. Если сравнивать производительность с тем же гимпом, то imagemagick куда быстрей. А к не совсем очевидному поведению со временем привыкаешь.
>>30151ghostscript много лучше себя показал.
>>30153Если ты про рендеренг страничек то это не удивительно, он заточен под это. Imagemagick кстати скорее всего его же и использует в какой-то промежуточной стадии.
закончил окрить руские книги.медленно, блджад.
закончил окрить руские книги.
медленно, блджад.
>>31138Чем окришь?
>>31142tesseract из svn'а. в ней и данные для руского есть, и окрит точно. хорошая софтина.
слушайте, а у нас в линуксах есть какая-нибудь команда, которая бы запускала другую команду, и, если она не выполнится в течении какого-то времени, терминировала её?запросы в гугле выдают один мусор.
слушайте, а у нас в линуксах есть какая-нибудь команда, которая бы запускала другую команду, и, если она не выполнится в течении какого-то времени, терминировала её?
запросы в гугле выдают один мусор.
>>31535#!/bin/bash#запускаем программу в фонеprogram&#ждем 5 минутsleep 5m#если она еще жива - убиваемkill $!
>>31535
#!/bin/bash#запускаем программу в фонеprogram&#ждем 5 минутsleep 5m#если она еще жива - убиваемkill $!
>>31536у меня несколько инстансов одной программы. алсо килу же нужен номер процесса?
>>31538Используй несколько переменных для хранения pidа. Когда ты отправляешь в фон процесс то его pid сохраняется в $!, соответственно если ты сделаешь kill $! то убьешь последний отправленный в фон процесс.
>>31536погоди, так kill $ получит параметры внутри скрипта, да? как это так хитро реализованно?
>>31539спасибо, я всё понел!
hocr2pdf оказалась полнейшим говном, не способным работать ни с выводом cuneiform, ни с тессерактом. а других окров с этим форматом под линуксы нет, такие дела.теперь сижу конвертирую все неокреные пдфки в дежавью, получаю бонусы сжатия и скорости запуска. хороший формат, жаль не могу к словам распознование привязать.алсо поставил beagle. сейчас разберусь со своей безопасностью и включу веб-интерфейс. а ещё сделаю торрент с библиотекой, и выложу на наш трекер. таким образом любой из 3.5 анонов сможет легко найти и скачать нужные научные книги. давно хотел такую библиотеку сделать.
hocr2pdf оказалась полнейшим говном, не способным работать ни с выводом cuneiform, ни с тессерактом. а других окров с этим форматом под линуксы нет, такие дела.
теперь сижу конвертирую все неокреные пдфки в дежавью, получаю бонусы сжатия и скорости запуска. хороший формат, жаль не могу к словам распознование привязать.
алсо поставил beagle. сейчас разберусь со своей безопасностью и включу веб-интерфейс. а ещё сделаю торрент с библиотекой, и выложу на наш трекер. таким образом любой из 3.5 анонов сможет легко найти и скачать нужные научные книги. давно хотел такую библиотеку сделать.
>>31671нет, бигл я не поставил. у него какие-то проблемы с скуелем. задо работает рекол. веб-интерейс буду отдельно делать.
>>31671> включу веб-интерфейс. а ещё сделаю торрент с библиотекой, и выложу на наш трекерБыло бы интересно.
>>31671
> включу веб-интерфейс. а ещё сделаю торрент с библиотекой, и выложу на наш трекер
Было бы интересно.
>>31535[~]$ timeout --helpИспользование: timeout [КЛЮЧ] ЧИСЛО[СУФФИКС] КОМАНДА [АРГУМЕНТ]... или: timeout [КЛЮЧ]Запускает КОМАНДУ, и завершает её, если она остаётся запущенной послезаданного ЧИСЛА секунд.СУФФИКСОМ может быть: s (по умолчанию) секунды, m минуты, h часы или d дни.
[~]$ timeout --helpИспользование: timeout [КЛЮЧ] ЧИСЛО[СУФФИКС] КОМАНДА [АРГУМЕНТ]... или: timeout [КЛЮЧ]Запускает КОМАНДУ, и завершает её, если она остаётся запущенной послезаданного ЧИСЛА секунд.СУФФИКСОМ может быть: s (по умолчанию) секунды, m минуты, h часы или d дни.
>СУФФИКСОМ может быть: s (по умолчанию) секунды, m минуты, h часы или d дни.а тян?спасибо.
>СУФФИКСОМ может быть: s (по умолчанию) секунды, m минуты, h часы или d дни.
а тян?
спасибо.
>>31697ばか!
Внезапное поднятие вверх
>>31687последний раз при попытке извлечь бигл он умер на компиляции чего-то с майскуелем, так что я быть может просто выложу индекс библиотеки для утилиты recoll(она и получше бигла будет, в управлении запросами). алсо тогда мне не надо будет светить айпишник.книги конвертятся днями и ночами.
>>31687последний раз при попытке извлечь бигл он умер на компиляции чего-то с майскуелем, так что я быть может просто выложу индекс библиотеки для утилиты recoll(она и получше бигла будет, в управлении запросами). алсо тогда мне не надо будет светить айпишник.
книги конвертятся днями и ночами.
Как успехи, ОП?
>>34027все неиндексированные pdf переведены в djvu, recoll- up&running, осталось несколько дней окрить дежавьюшки. скрипты в общем-то фоном работали уже почти месяц.бигл сегодня ночью свежий емёржнуть попробую.
>>34027все неиндексированные pdf переведены в djvu, recoll- up&running, осталось несколько дней окрить дежавьюшки. скрипты в общем-то фоном работали уже почти месяц.
бигл сегодня ночью свежий емёржнуть попробую.
>>34029хм, вероятно я всё же выложу индекс рекола. хотя он 20 gb. может или с сюэлем разберусь.
>>34046всё должно работать. не забыть пропатчить моно.
>>34046всё должно работать.
не забыть пропатчить моно.
>>34051> не забыть пропатчить моноУх. Мне страшно от этих слов, оно же и так едва работает.
>>34051
> не забыть пропатчить моно
Ух. Мне страшно от этих слов, оно же и так едва работает.
ОП, как у тебя дела? Наверняка ты знаком с calibre, не пробовал использовать ее как конвертер и веб-сервер для своей библиотеки?
>>35958сейчас окрятся гуманитарные науки. чёрт его знает, сколько там ещё книг.а за калибре спасибо, интересная штуковина.
>>35958сейчас окрятся гуманитарные науки. чёрт его знает, сколько там ещё книг.
а за калибре спасибо, интересная штуковина.
>>35997нет, прыщехуйня это очередная. нет полнотекстового поиска, не способен хранить библиотеку как симлинки-> сразу на помойку.
- wakaba 3.0.7 + futaba + futallaby -