Бред

[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]

[Burichan] [Futaba] [Greenhell] [Gurochan] [Photon] - [Home] [Manage] [Archive]

Бред

Posting mode: Reply

File: 1354032518229.jpg -(52920 B, 600x618) Thumbnail displayed, click image for full size.

anonymous 12/11/27(Tue)18:08 No.86104

http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D1%81&start=1900&end=2010&smoothing=3
Не смог найти Антошу, который хотел смотреть статистику упоминания в печатных изданиях тех или иних событий. Вот тут можно посмотреть. Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий. Те. к ~1990 писать стали больше и почти всё перевешивает. Но можно уменьшить шаг, сузить временной интервал.
Сабж нашёл, так как хочу запилить велосипед распознования русске слова и какой частью речи оно является. А потом полазить пособирать статистику.

anonymous 12/11/27(Tue)18:33 No.86105
File: 1354034032181.jpg -(369920 B, 750x750) Thumbnail displayed, click image for full size.

>>86104
Данные они похоже вот отсюда выгребвают: http://books.google.com/ngrams/ , там же есть ссылка на сырые данные, так же они в процентах графики строят, что наверное будет несколько более удобным.

anonymous 12/11/27(Tue)19:19 No.86106
File: 1354036786067.jpg -(79975 B, 600x600) Thumbnail displayed, click image for full size.

Nope, данные отечественные.
ruscorpora.ru
10 июля 2012 года
Год назад был запущен сервис «Графики», аналогичный сервису Google Books Ngram Viewer: распределение найденных по точной форме слов и словосочетаний по годам. Теперь такой график можно построить по результатам произвольного запроса к основному корпусу (а не только по точным формам, как раньше). Для этого перейдите по ссылке «Распределение по годам» на странице с результатами поиска и дождитесь ответа. Кроме того, по соседней ссылке «Статистика» доступны таблицы с распределением найденных документам по авторам, жанрам, типам, тематике текста и т. д.

>>	anonymous 12/11/27(Tue)19:44 No.86107 File: 1354038280414.png -(34714 B, 1530x352) Thumbnail displayed, click image for full size. данные доставляют

anonymous 12/11/27(Tue)19:56 No.86109
File: 1354038970907.png -(345578 B, 600x600) Thumbnail displayed, click image for full size.

>>86106
Да, похоже ты прав, источники разные.
http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=яндекс&start=1800&end=2012
http://books.google.com/ngrams/graph?content=яндекс&year_start=1800&year_end=2008&corpus=12

>>	anonymous 12/11/27(Tue)21:13 No.86113 File: 1354043636833.png -(39831 B, 1347x528) Thumbnail displayed, click image for full size. Спасибо, аноны, это замечательно. Алсо, ОП, http://packages.python.org/pymorphy/

>>	anonymous 12/11/27(Tue)21:37 No.86118 File: 1354045053253.jpg -(134454 B, 800x600) Thumbnail displayed, click image for full size. >>86113 Знаю. Но хочу попробовать adaBoost для обучения и надо углубится в java.

anonymous 12/11/28(Wed)05:45 No.86129
File: 1354074306906.jpg -(425230 B, 543x805) Thumbnail displayed, click image for full size.

>>86104
> Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий.
Если сравнивать эту штуку с гуглем по предлогам то получается что одна единица там примерно соответствует 0,0001%

Delete Post [File Only]
Password

[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]

Name
Link
Subject
Comment
File
Verification
Password	(for post and file deletion)
Supported file types are: GIF, JPG, PDF, PNG Maximum file size allowed is 20480 KB. Images greater than 200x200 pixels will be thumbnailed.