Бред

[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]

[Burichan] [Futaba] [Gurochan] [Photon] - [Home] [Manage] [Archive]

Бред

Posting mode: Reply

File: 1264271191043.jpg -(110957 B, 640x480) Thumbnail displayed, click image for full size.

anonymous 10/01/23(Sat)20:26 No.26467

Анон, мне внезапно задумалось перевести всю библиотеку в pdf, а затем проиндексировать её. Есть ли в какой-нибудь(например в абби-как-его там, он же вроде лучший в плане алгоритмов распознования?) такой фокус, проверка распознанного текста словарём, и далее вставка нераспознанных/неправильных слов/символов/картинок в виде изображения? Хотелось бы перегнать сканы и дежавьюшки в такой формат.
Алсо посоветуй мне хорошую утилиту для индексирования файлов, под линукс.
Всё остальное желательно тоже под линукс, соответственно рад буду и скриптам по рекурсивному перегону djvu, doc, rtf и chm в pdf(хотя есть ли смысл? большая часть программ вроде и доки и кхм индексирует), с дальнейшим же рекурсивным распознованием. Доставишь хоть часть- я подниму сервер с 0.5 тб. технической литературы специально для новеря.

anonymous 10/01/23(Sat)20:32 No.26470

> перевести всю библиотеку в pdf, а затем проиндексировать её
Чуувааак, ты что курил? Зачем хранить данные в формате который как бы должен быть защищен от индексирования? Или ты говоришь о бумажной библиотеке?
> Алсо посоветуй мне хорошую утилиту для индексирования файлов, под линукс.
Тебе для индексирования файлов по названиям или по содержимому?

>>	anonymous 10/01/23(Sat)20:37 No.26473 >>26470 А в какой ещё? Я так понял, что текст в пдфках индексировать можжет большинство программ. Естественно по содержимому. Зачем мне имена тысяч книг из разных торрентов?

>>	anonymous 10/01/23(Sat)20:38 No.26474 >>26473 Опять же, а какой есть другой формат для быстрого просмотра картинок вперемешку с текстом?

>>	anonymous 10/01/23(Sat)21:39 No.26486 >>26474 html

>>	anonymous 10/01/23(Sat)21:46 No.26487 File: 1264276014456.jpg -(9418 B, 251x236) Thumbnail displayed, click image for full size. >>26486 да ты совсем, блджад, пизданулся!

>>	anonymous 10/01/23(Sat)21:50 No.26488 >>26487 что не так с html? doxygen и подобные утилиты документацию почему-то в html генерируют, а не в пдф.

>>	anonymous 10/01/23(Sat)21:57 No.26489 >>26488 мне не нужна документация. мне нужна удобная библиотека. просматривать хтмл книгу нихуя не удобно. кликать по ссылкам в книге нихуя не удобно. хтмл неудобен.

>>	anonymous 10/01/23(Sat)22:01 No.26490 >>26489 Что же такого неудобного в html книге чего нет в других форматах?

>>	anonymous 10/01/23(Sat)22:32 No.26492 >>26490 это для меня гавно плохо зделано тупо. трудно хранить, трудно обновлять, трудно читать. не подходит короче, не надо спорить, ты формат электронной книги предлагай.

anonymous 10/01/23(Sat)22:34 No.26493

>>26492
Ничего не понял в твоих объяснениях. Совсем ничего. Сколько ни читал книги в html - каких-либо проблем это не вызывало, разве что не все устройства могут переварить html файл размером больше метра. Олсо старый добрый txt тоже хорош, если книга без картинок.

>>	anonymous 10/01/23(Sat)22:48 No.26494 >>26493 вот о том и речь. а у меня целые справочники, которые надо в виде текста со словами, диаграммами, картинками представить, да так, чтобы это было на нетбуке удобно читать.

>>	anonymous 10/01/23(Sat)22:54 No.26495 >>26494 Тогда тем более html, поскольку у него существует возможность сделать довольно мягкое форматирование.

>>	anonymous 10/01/23(Sat)23:05 No.26496 >>26495 ну не скажи. и читать его нечем, и масштабируется он уебански, и вообще медленный это формат, он на страницы рассчитан. ну что, блять, за привычка спорить.

>>	anonymous 10/01/23(Sat)23:09 No.26497 >>26496 посмотри как выглядит например http://zhurnal.lib.ru/ очень даже читабельно и масштабируемо под любые мониторы.

anonymous 10/01/24(Sun)08:08 No.26510

Собственно, да, чем конкретно html не угодил? Поддерживаю предыдущего оратора. Если убрать из текста все уебанские приёмы форматирования и оставить только исконно расово верные <h1...7>, <img> и <a>, то получится вполне себе даже пиздато и очаровательно индексируемо, а читать можно будет даже в сыром виде как текст.

>>	anonymous 10/01/24(Sun)08:12 No.26511 >>26510 книга на 1500 страниц. часть символов- картинки точно на месте буковицы. на каждой почти странице- графики. из всего этого мы сделаем вывод: мой нетбук обосрётся такие документы обрабатывать.

anonymous 10/01/24(Sun)09:04 No.26513

>>26511
Ну тогда, DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах. DjVu стал основой для нескольких библиотек научных книг.

>>	anonymous 10/01/24(Sun)13:02 No.26522 Одну из главных вещей забыли: pdf(ну и отчасти djvu) читается на очень многих девайсах, начиная с телефоном, заканчивая MID и psp.

>>	anonymous 10/01/26(Tue)01:28 No.26582 >>26513 его содержимое вообще возможно какой-нибудь существующей тулзой индексировать?

>>	anonymous 10/01/26(Tue)02:21 No.26584 http://dvach.hut1.ru

>>	anonymous 10/01/30(Sat)06:21 No.26778 как ни странно, под линупсы оказалось целых 4 мощных поисковика, помимо гуглписечки. сейчас буду выбирать, но похоже лучшее- recoil, оно и дежавьюшки индексирует.

>>	anonymous 10/01/30(Sat)12:14 No.26783 >>26778 Названиями остальных не поделишься?

>>	anonymous 10/01/30(Sat)15:47 No.26791 File: 1264859222233.png -(608994 B, 1250x1425) Thumbnail displayed, click image for full size. >>26783 тащемто ПЕРВАЯ СТРОЧКА в википедии. в порядке крутости: Beagle Terrier Strigi Tracker

>>	anonymous 10/02/23(Tue)23:03 No.27966 Бамп.

anonymous 10/03/06(Sat)08:33 No.28619
File: 1267857208802.jpg -(174654 B, 450x500) Thumbnail displayed, click image for full size.

возвращаюсь к этой теме. я пока шарюсь в гоогле, размышляю, хотелось бы узнать следующее:
кто-нибудь знает, как проверить pdf и djvu документ в плане того, был ли он переконвертированн в частично текст/частично картинки, или целиком состоит из изображений.

>>	anonymous 10/03/06(Sat)08:37 No.28620 >>26778 >recoll

anonymous 10/03/06(Sat)16:24 No.28628
File: 1267885494685.jpg -(138634 B, 1042x631) Thumbnail displayed, click image for full size.

реквестирую образец скрипта для рекурсивного применения команды ко всему в папке.
реквестирую скрипт для рекурсивного переименования всего в папке в нижний регистр.
как вы уже догадались, под баш.

anonymous 10/03/06(Sat)16:50 No.28631
File: 1267887010354.jpg -(265430 B, 528x1313) Thumbnail displayed, click image for full size.

>>28628

> реквестирую скрипт для рекурсивного переименования всего в папке в нижний регистр

#!/bin/bash

perfile() {
dst="`echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю/'`"
if [ "$1" != "$dst" ] ; then mv -vi "$1" "$dst" ; fi
}

perdir() {
find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; done
ls | while read file ; do perfile "$file" ; done
}

perdir

>>	anonymous 10/03/08(Mon)07:09 No.28662 File: 1268024991675.jpg -(77272 B, 859x1198) Thumbnail displayed, click image for full size. почти всё раскидал и рассортировал. сейчас буду окрить пытаться.

>>	anonymous 10/03/08(Mon)16:01 No.28677 >>28631 все проще `for fname in *` `do` `mv -ni $fname ${fname,,}` `done`

anonymous 10/03/08(Mon)16:13 No.28679
File: 1268057611805.jpg -(395566 B, 600x800) Thumbnail displayed, click image for full size.

>>28677
Нет рекурсивности.
Догадайся как отработает твоя программа, нарвавшись на имена файлов с пробелами.
Про то что файл может по русски называться ты тоже не подумал.

>>	anonymous 10/03/08(Mon)16:46 No.28681 >>28679 спасибо, кстати.

anonymous 10/03/08(Mon)20:33 No.28693
File: 1268073212861.jpg -(52206 B, 450x698) Thumbnail displayed, click image for full size.

>>28679
Рекурсивность я специально не писал, просто хотел показать более простое переименование. Пробелы вообще не проблема, а файлов с русскими именами у меня практически нет.

>>	anonymous 10/03/08(Mon)22:06 No.28694 File: 1268078814341.jpg -(16386 B, 370x332) Thumbnail displayed, click image for full size. Кстати, кто-нибудь использует специальные "катологизаторы" для книг? Самому всё страшно лень организоваться

anonymous 10/03/11(Thu)13:22 No.28776
File: 1268306563040.jpg -(84794 B, 400x709) Thumbnail displayed, click image for full size.

чудесно. пока что я вижу только один способ получить список не отокреных файлов- в скрипте вызывать утилиту, извлекающую текст из пдфки, измерять вес файла, записывать/нет его в список. но это же ебанатство на день!

>>	anonymous 10/03/11(Thu)13:38 No.28779 >>28776 > но это же ебанатство на день! Поставь скрипт на ночь. > список не отокреных файлов Я так и и не понял, что ты имел в виду.

anonymous 10/03/11(Thu)14:11 No.28780

>>28779
я имел в виду файлы, которые состоят из сканов страниц, а не из картинок и распознанного текста. к слову, нормальное распознование, не превращающие документ в кашу возможно есть в файнридере, но там об обработке скриптом речи не идёт, такие дела. да даже просто добавить невидимый слой для поиска- в питухах непонятно как, а в акнеподелии никаких скриптов, нужно каждый документ руками открывать и тыкать в кнопочки. ебаный нахуй.

>>	anonymous 10/03/11(Thu)14:43 No.28782 >>28780 Тебе распознание текста нужно для поиска в документах? Если да, то вполне сойдет и каша из слов, главное чтобы слова были нормально распознаны. Просто искать придется без учета порядка слов да и только.

anonymous 10/03/11(Thu)15:21 No.28784
File: 1268313674224.jpg -(11780 B, 480x366) Thumbnail displayed, click image for full size.

>>28782
ну да, естественно, просто нужно распознанные слова ещё и в скрипте запихать в невидимый слой под обычную пдфку. а с добавлением слоя в скрипте пока у меня проблемы.

>>	anonymous 10/03/11(Thu)15:26 No.28785 File: 1268314010785.png -(18496 B, 400x400) Thumbnail displayed, click image for full size. ещё и гтумб после апдейта сломался. ну блять.

anonymous 10/03/11(Thu)15:34 No.28786
File: 1268314451438.jpg -(419300 B, 800x800) Thumbnail displayed, click image for full size.

>>28784
pdf2ps source.pdf out1.ps
добавляешь индексируемый слой
pdf2ps source.pdf out2.ps
diff out1.ps out2.ps
смотришь, что поменялось, пытаешься воспроизвести аналогичные действия скриптом

>>	anonymous 10/03/11(Thu)16:30 No.28792 File: 1268317836039.png -(63333 B, 1102x730) Thumbnail displayed, click image for full size. >>28785 ещё и говна в интерфейс подлили. ёбаные прыщеинноваторы. я негодую.

>>	anonymous 10/03/11(Thu)16:38 No.28793 >>28792 хм, зато теперь тумбнэйлы грузятся быстро.

>>	anonymous 10/03/23(Tue)15:12 No.29408 File: 1269349936071.jpg -(67447 B, 347x500) Thumbnail displayed, click image for full size. >>28786 >добавляешь индексируемый слой вот в этом-то и вопрос. как?

anonymous 10/03/24(Wed)05:57 No.29449
File: 1269403077597.jpg -(815794 B, 1280x905) Thumbnail displayed, click image for full size.

после продолжительного лурканья я таки нашел способ! причём, как говорится искаропки. вот тут: http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/ некий человек, подозрительно похожий на леонида василевского, даже написал скрипт.
а оказывается, есть такая утилита hocr2pdf, которая именно добавляет невидимый слой из формата hocr, ещё и точно оберегая расположение текста в документе. только кунеинформ пиздец медленный, а hocr2pdf у меня в портаже нет, такие дела. сейчас будем ковыряться.

>>	anonymous 10/03/24(Wed)06:02 No.29450 >>29449 а это оказывается утилита из пакета exactimage. его, впрочем, тоже в портаже нет.

>>	anonymous 10/03/24(Wed)06:54 No.29453 >>29450 а, нет, был, но хитро запрятаный.

anonymous 10/03/24(Wed)10:41 No.29467
File: 1269420084434.jpg -(271569 B, 520x730) Thumbnail displayed, click image for full size.

>>28631
ты кстати в скрипте cd .. забыл.
#!/bin/bash
perfile() {
dst="echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"
if [ "$1" != "$dst" ] ; then mv -vi "$1" "$dst" ; fi
}
perdir() {
find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; done
ls | while read file ; do perfile "$file" ; done
cd .. ;
}
perdir

>>	anonymous 10/03/24(Wed)11:00 No.29468 >>29467 и ещё лучше делать mv -vn, а не -vi, потому что всё равно консоль заспамится остальными сообщениями и все файлы в директории останутся непереименованы.

anonymous 10/03/24(Wed)13:42 No.29475
File: 1269430957248.jpg -(348499 B, 600x800) Thumbnail displayed, click image for full size.

>>29467
Точно забыл. Извиняюсь.
>>29468
И опять забыл что основной поток функции уже используется. Тогда уже лучше сделать cat /dev/stderr | mv -vi ...
Тогда запрос на перезапись будет происходить с клавиатуры.

anonymous 10/03/24(Wed)16:37 No.29482
File: 1269441437329.png -(342910 B, 800x949) Thumbnail displayed, click image for full size.

>>29475
а вот совсем правильная версия:
#!/bin/bash
perfile() {
dst="echo $1 | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"
if [ "$1" != "$dst" ] ; then echo "$file" "\n" "$dst" ; fi
}
perdir() {
find . -maxdepth 1 -mindepth 1 -type d | while read dir ; do cd "$dir" ; perdir ; done
for f in * ; do
dst="echo $f | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"
if [ "$f" != "$dst" ] ; then mv -nv "$f" "$dst" ; fi
done
cd .. ;
}
perdir
а то твоя на множественных пробелах глючила.

>>	anonymous 10/03/24(Wed)18:24 No.29488 >>29482 нет, всё равно файнд пробелы теряет.

>>	anonymous 10/03/24(Wed)18:33 No.29489 >>29488 вернее в cd они теряется.

>>	anonymous 10/03/24(Wed)20:28 No.29492 >>29488 > пробелы теряет dst="`echo "$1" \| sed ...

>>	anonymous 10/03/25(Thu)01:58 No.29500 >sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'" Да вы же упоротые. `% echo 'НянямУ няНЯшу НяняКА' \| ghc -e 'interact (map Data.Char.toLower)'` `няняму няняшу няняка`

>>	anonymous 10/03/25(Thu)02:45 No.29501 >>29500 `Size of files: 70,020 kB` Как-то многовато для простой операции.

>>	anonymous 10/03/25(Thu)05:11 No.29502 File: 1269486680736.jpg -(30806 B, 392x300) Thumbnail displayed, click image for full size. >>29501 Нищеброд чтоле?

anonymous 10/03/25(Thu)05:13 No.29503
File: 1269486831897.jpg -(94766 B, 480x640) Thumbnail displayed, click image for full size.

>>29492
>вернее в cd они теряется
>dst="`echo "$1" | sed ...
да ты снайпер.
вернее сд не может перейти в каталог с несколькими пробелами в названии. сраный синтаксис, сраные символы переноса.

>>	anonymous 10/03/25(Thu)05:56 No.29506 всё, заработало.

>>	anonymous 10/03/25(Thu)05:57 No.29507 >>29506 а, нет, всё равно отрезаются где-то пробелы в конце названия. ну ёб.

>>	anonymous 10/03/25(Thu)05:58 No.29508 >>29507 и не где-то, а в сд.

>>	anonymous 10/03/25(Thu)07:28 No.29509 >>29508 и не в сд, а в while read

anonymous 10/03/25(Thu)07:35 No.29510
File: 1269495348085.jpg -(147109 B, 480x640) Thumbnail displayed, click image for full size.

охвау, всех конечно уже заебало, но я сделал этот скрипт правильным:
#!/bin/bash
perdir()
{
find . -maxdepth 1 -mindepth 1 -type d | (IFS='\n'
while read dir
do
cd "$dir"
IFS=' \t\n'
perdir ; done)
for f in * ; do
dst="echo $f | sed 'y/QWERTYUIOPASDFGHJKLZXCVBNMЙЦУКЕНГШЩЗХЪФЫВАПРОЛДЖЭЯЧСМИТЬБЮ_+-=/qwertyuiopasdfghjklzxcvbnmйцукенгшщзхъфывапролджэячсмитьбю /'"
if [ "$f" != "$dst" ] ; then mv -nv "$f" "$dst" ; fi
done
cd .. ;
}
perdir

>>	anonymous 10/03/25(Thu)08:07 No.29511 File: 1269497273533.jpg -(55797 B, 452x604) Thumbnail displayed, click image for full size. >>29510 лолнет, немного не так, но починил.

>>	anonymous 10/03/25(Thu)10:22 No.29513 ламера

>>	anonymous 10/03/25(Thu)10:42 No.29514 >>29513 ты хуй

>>	anonymous 10/03/25(Thu)11:53 No.29515 File: 1269510805430.jpg -(189003 B, 1167x700) Thumbnail displayed, click image for full size. поставил декодировать неотокреные дежавьюшки. чувствую, они будут конвертироваться несколько дней.

anonymous 10/03/25(Thu)13:34 No.29517
File: 1269516855907.jpg -(403712 B, 843x1200) Thumbnail displayed, click image for full size.

>>29515
слишком долго. решил просто отокрить дежавьюшки для поика непосредственно в них. что характерно, решение искаропки нашлось сразу. опенсорс в обращении почему-то удобнее чем проприетарщина. наверное благодаря скриптам.

>>	anonymous 10/03/25(Thu)13:36 No.29518 >>29517 и, блджад, распознать текст в дежавью- операция на несколько порядков быстрее чем преобразовать дежавью в пдф.

>>	anonymous 10/03/26(Fri)20:42 No.29562 >>29500 % echo 'НянямУ няНЯшу НяняКА'\|perl -e 'binmode(STDIN,":utf8");binmode(STDOUT,":utf8");print lc(<STDIN>)' няняму няняшу няняка %%ПЕRЛ%%

anonymous 10/03/30(Tue)15:01 No.29756
File: 1269950480328.jpg -(23134 B, 341x480) Thumbnail displayed, click image for full size.

дежавьюшки всё распознаются..
не могу найти нормальную тулзу для разделения пдфок. все на джаве(ёбаный стыд), пдфтк вообще не собирается(а что собственно от джавы ждать).

>>	anonymous 10/03/30(Tue)16:35 No.29764 File: 1269956130564.jpg -(53371 B, 807x513) Thumbnail displayed, click image for full size. >>29756 собрал таки, джава с оптимизациями не дружит.

>>	anonymous 10/03/30(Tue)16:45 No.29765 File: 1269956737466.png -(291993 B, 500x600) Thumbnail displayed, click image for full size. >>29764 а ещё я почистил и собрал свою пневматику.

>>	anonymous 10/03/30(Tue)23:32 No.29796 File: 1269981167120.jpg -(88739 B, 626x620) Thumbnail displayed, click image for full size. >>29765 А там где ты взял эту картинку еще есть такие? Или это очередной рэндом?

>>	anonymous 10/03/31(Wed)04:14 No.29801 File: 1269998065991.png -(120801 B, 500x500) Thumbnail displayed, click image for full size. >>29796 это сибирь-тян. есть на сибирьчане и в ычанском /тян

anonymous 10/04/01(Thu)03:40 No.29854
File: 1270082404849.jpg -(158984 B, 526x701) Thumbnail displayed, click image for full size.

кто-нибудь из линупсоидов, попробуйте установить вот эту библиотеку:
http://jwilk.net/software/python-djvulibre
у меня выдаёт
/_documents/python-djvulibre-0.1.17/setup.py: line 17:
python-djvulibre is a set of Python <http://python.org>_ bindings for the
DjVuLibre <http://djvu.sf.net/>_ library, an open source implementation of
DjVu <http://djvu.org/>_.
: No such file or directory
/_documents/python-djvulibre-0.1.17/setup.py: line 29: syntax error near unexpected token `('
/_documents/python-djvulibre-0.1.17/setup.py: line 29: `'''.split('\n')'
, чзх?
а других путей нормально оцифровать пдфки я не вижу. алсо, пдф- проприетарное говно, вчера весь день ебался со скриптами.

>>	anonymous 10/04/01(Thu)04:02 No.29856 >>29854 У меня аналогично. Думаю что можно просто ручками скопировать эти файлы в каталог `где там у питона либы лежат`

>>	anonymous 10/04/01(Thu)08:18 No.29864 File: 1270099090457.jpg -(794944 B, 1476x1039) Thumbnail displayed, click image for full size. >>29856 где там у питона либы лежат?

>>	anonymous 10/04/01(Thu)08:35 No.29865 >>29765 какая у тебя пневма?

>>	anonymous 10/04/01(Thu)09:11 No.29871 >>29864 ставишь питон, ставишь какую-нибудь либу на него, потом `updatedb locate <libname>` если мало интересного то можно еще попробовать `locate .py`

>>	anonymous 10/04/01(Thu)16:15 No.29890 >>29865 ижик обычный.

>>	anonymous 10/04/01(Thu)16:36 No.29891 >>29890 ижики разные бывают, рискну предположить что у тебя 38-й, поскольку обычный, сам гордый владелец двух МуРок, вот планирую накопить на GunPower

anonymous 10/04/05(Mon)13:26 No.30067
File: 1270463201376.jpg -(79262 B, 550x732) Thumbnail displayed, click image for full size.

>>29854
у нас тут кто-нибудь в питоне разбирается? потому что там нужно сначала скомпилировать библиотеки. пока я всё окрю русские дежавьюшки, но как бы было бы неплохо и с пдф разобраться.

>>	anonymous 10/04/05(Mon)13:57 No.30069 >>30067 думаю что это делается как-то так http://docs.python.org/library/py_compile.html или так http://docs.python.org/library/compileall.html

>>	anonymous 10/04/05(Mon)14:34 No.30072 >>30067 Компилить библиотеки для использования не обязательно. Главное, чтоб они импортились нормально, а уж в исходниках они или скомпилены - все равно работать будут.

>>	anonymous 10/04/05(Mon)14:58 No.30074 Кто-нибудь разбирается с dpi? если я ресайзю разные пикчи в 900dpi, количество пикселов в выходной картинке всегда будет одинаковым?

>>	anonymous 10/04/05(Mon)15:04 No.30075 >>30074 dpi = dots per inch, т.е. сколько пикселей в одном дюйме. Этой информации тебе недостаточно?

>>	anonymous 10/04/05(Mon)15:14 No.30076 >>30075 мм, скажи точно, >количество пикселов в выходной картинке всегда будет одинаковым? для разных исходников? меня интересует перекодирование, и я могу ошибаться. алсо нашел способ обрабатывать пдфки.

>>	anonymous 10/04/05(Mon)16:23 No.30078 >>30076 Я не понимаю, что ты называешь разными источниками.

>>	anonymous 10/04/05(Mon)16:57 No.30082 >>30078 да я уже разобрался сам.

>>	anonymous 10/04/06(Tue)13:02 No.30138 File: 1270548172054.jpg -(182738 B, 600x800) Thumbnail displayed, click image for full size. похоже что заработал скрипт для пдфок. из всей ебли с конвертацией и декодированием я вынес две простые вещи: cuneiform- говно. imagemagik- ещё большее говно.

>>	anonymous 10/04/06(Tue)13:30 No.30143 >>30138 С первым не работал, но imagemagick то за что? Вполне годный графический редактор, если как следует разобраться.

>>	anonymous 10/04/06(Tue)16:08 No.30148 >>30143 конвертирует медленно и с ошибками.

>>	anonymous 10/04/06(Tue)16:33 No.30151 >>30148 Обработка изображений процесс по определению весьма ресурсоемкий. Если сравнивать производительность с тем же гимпом, то imagemagick куда быстрей. А к не совсем очевидному поведению со временем привыкаешь.

>>	anonymous 10/04/06(Tue)16:39 No.30153 File: 1270561144966.jpg -(858937 B, 1200x1184) Thumbnail displayed, click image for full size. >>30151 ghostscript много лучше себя показал.

>>	anonymous 10/04/06(Tue)16:43 No.30155 >>30153 Если ты про рендеренг страничек то это не удивительно, он заточен под это. Imagemagick кстати скорее всего его же и использует в какой-то промежуточной стадии.

>>	anonymous 10/04/21(Wed)19:13 No.31138 File: 1271866394472.jpg -(183688 B, 700x376) Thumbnail displayed, click image for full size. закончил окрить руские книги. медленно, блджад.

>>	anonymous 10/04/21(Wed)19:21 No.31142 >>31138 Чем окришь?

>>	anonymous 10/04/21(Wed)19:34 No.31148 File: 1271867685445.jpg -(153987 B, 600x600) Thumbnail displayed, click image for full size. >>31142 tesseract из svn'а. в ней и данные для руского есть, и окрит точно. хорошая софтина.

anonymous 10/04/27(Tue)12:52 No.31535
File: 1272361941594.png -(1133685 B, 1100x1600) Thumbnail displayed, click image for full size.

слушайте, а у нас в линуксах есть какая-нибудь команда, которая бы запускала другую команду, и, если она не выполнится в течении какого-то времени, терминировала её?
запросы в гугле выдают один мусор.

>>	anonymous 10/04/27(Tue)14:21 No.31536 >>31535 `#!/bin/bash #запускаем программу в фоне program& #ждем 5 минут sleep 5m #если она еще жива - убиваем kill $!`

>>	anonymous 10/04/27(Tue)14:33 No.31538 File: 1272368008101.jpg -(67964 B, 630x800) Thumbnail displayed, click image for full size. >>31536 у меня несколько инстансов одной программы. алсо килу же нужен номер процесса?

anonymous 10/04/27(Tue)14:35 No.31539
File: 1272368120269.jpg -(98293 B, 550x757) Thumbnail displayed, click image for full size.

>>31538
Используй несколько переменных для хранения pidа. Когда ты отправляешь в фон процесс то его pid сохраняется в $!, соответственно если ты сделаешь kill $! то убьешь последний отправленный в фон процесс.

>>	anonymous 10/04/27(Tue)14:35 No.31540 >>31536 погоди, так kill $ получит параметры внутри скрипта, да? как это так хитро реализованно?

>>	anonymous 10/04/27(Tue)14:36 No.31541 File: 1272368211498.jpg -(148891 B, 517x677) Thumbnail displayed, click image for full size. >>31539 спасибо, я всё понел!

anonymous 10/04/30(Fri)06:30 No.31671
File: 1272598205973.jpg -(49412 B, 600x800) Thumbnail displayed, click image for full size.

hocr2pdf оказалась полнейшим говном, не способным работать ни с выводом cuneiform, ни с тессерактом. а других окров с этим форматом под линуксы нет, такие дела.
теперь сижу конвертирую все неокреные пдфки в дежавью, получаю бонусы сжатия и скорости запуска. хороший формат, жаль не могу к словам распознование привязать.
алсо поставил beagle. сейчас разберусь со своей безопасностью и включу веб-интерфейс. а ещё сделаю торрент с библиотекой, и выложу на наш трекер. таким образом любой из 3.5 анонов сможет легко найти и скачать нужные научные книги. давно хотел такую библиотеку сделать.

>>	anonymous 10/04/30(Fri)13:09 No.31676 File: 1272622178477.jpg -(141529 B, 584x850) Thumbnail displayed, click image for full size. >>31671 нет, бигл я не поставил. у него какие-то проблемы с скуелем. задо работает рекол. веб-интерейс буду отдельно делать.

>>	anonymous 10/04/30(Fri)15:04 No.31687 File: 1272629050745.jpg -(392041 B, 906x720) Thumbnail displayed, click image for full size. >>31671 > включу веб-интерфейс. а ещё сделаю торрент с библиотекой, и выложу на наш трекер Было бы интересно.

anonymous 10/04/30(Fri)15:43 No.31694

>>31535

[~]$ timeout --help
Использование: timeout [КЛЮЧ] ЧИСЛО[СУФФИКС] КОМАНДА     [АРГУМЕНТ]...
       или:    timeout [КЛЮЧ]
Запускает КОМАНДУ, и завершает её, если она остаётся     запущенной после
заданного ЧИСЛА секунд.
СУФФИКСОМ может быть: s (по умолчанию) секунды, m минуты, h часы или d дни.

>>	anonymous 10/04/30(Fri)16:38 No.31697 File: 1272634716398.jpg -(65447 B, 500x647) Thumbnail displayed, click image for full size. >СУФФИКСОМ может быть: s (по умолчанию) секунды, m минуты, h часы или d дни. а тян? спасибо.

>>	anonymous 10/04/30(Fri)19:53 No.31715 File: 1272646403146.jpg -(949759 B, 2400x1710) Thumbnail displayed, click image for full size. >>31697 ばか！

>>	anonymous 10/05/08(Sat)12:08 No.32268 Внезапное поднятие вверх

anonymous 10/05/08(Sat)12:42 No.32276
File: 1273311755908.jpg -(1122802 B, 1500x990) Thumbnail displayed, click image for full size.

>>31687
последний раз при попытке извлечь бигл он умер на компиляции чего-то с майскуелем, так что я быть может просто выложу индекс библиотеки для утилиты recoll(она и получше бигла будет, в управлении запросами). алсо тогда мне не надо будет светить айпишник.
книги конвертятся днями и ночами.

>>	anonymous 10/06/11(Fri)17:44 No.34027 Как успехи, ОП?

>>	anonymous 10/06/11(Fri)17:48 No.34029 >>34027 все неиндексированные pdf переведены в djvu, recoll- up&running, осталось несколько дней окрить дежавьюшки. скрипты в общем-то фоном работали уже почти месяц. бигл сегодня ночью свежий емёржнуть попробую.

>>	anonymous 10/06/11(Fri)20:32 No.34046 File: 1276277561826.jpg -(472406 B, 637x900) Thumbnail displayed, click image for full size. >>34029 хм, вероятно я всё же выложу индекс рекола. хотя он 20 gb. может или с сюэлем разберусь.

>>	anonymous 10/06/11(Fri)21:31 No.34051 File: 1276281080765.png -(380904 B, 480x640) Thumbnail displayed, click image for full size. >>34046 всё должно работать. не забыть пропатчить моно.

>>	anonymous 10/06/11(Fri)22:00 No.34059 >>34051 > не забыть пропатчить моно Ух. Мне страшно от этих слов, оно же и так едва работает.

>>	anonymous 10/07/29(Thu)17:52 No.35958 ОП, как у тебя дела? Наверняка ты знаком с calibre, не пробовал использовать ее как конвертер и веб-сервер для своей библиотеки?

>>	anonymous 10/07/30(Fri)01:31 No.35997 File: 1280442662191.png -(788420 B, 920x1225) Thumbnail displayed, click image for full size. >>35958 сейчас окрятся гуманитарные науки. чёрт его знает, сколько там ещё книг. а за калибре спасибо, интересная штуковина.

>>	anonymous 10/07/30(Fri)04:52 No.36014 File: 1280454729528.jpg -(221176 B, 750x1170) Thumbnail displayed, click image for full size. >>35997 нет, прыщехуйня это очередная. нет полнотекстового поиска, не способен хранить библиотеку как симлинки-> сразу на помойку.

Delete Post [File Only]
Password

[/b/] [/d/] [/tu/] [/a/] [/34/] [/ph/] [/wa/] [/cg/] [/t/]

Name
Link
Subject
Comment
File
Verification
Password	(for post and file deletion)
Supported file types are: GIF, JPG, PNG Maximum file size allowed is 10240 KB. Images greater than 200x200 pixels will be thumbnailed.