[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]
http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D1%81&start=1900&end=2010&smoothing=3Не смог найти Антошу, который хотел смотреть статистику упоминания в печатных изданиях тех или иних событий. Вот тут можно посмотреть. Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий. Те. к ~1990 писать стали больше и почти всё перевешивает. Но можно уменьшить шаг, сузить временной интервал.Сабж нашёл, так как хочу запилить велосипед распознования русске слова и какой частью речи оно является. А потом полазить пособирать статистику.
http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=%D0%BA%D0%BE%D1%81%D0%BC%D0%BE%D1%81&start=1900&end=2010&smoothing=3Не смог найти Антошу, который хотел смотреть статистику упоминания в печатных изданиях тех или иних событий. Вот тут можно посмотреть. Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий. Те. к ~1990 писать стали больше и почти всё перевешивает. Но можно уменьшить шаг, сузить временной интервал.
Сабж нашёл, так как хочу запилить велосипед распознования русске слова и какой частью речи оно является. А потом полазить пособирать статистику.
>>86104Данные они похоже вот отсюда выгребвают: http://books.google.com/ngrams/ , там же есть ссылка на сырые данные, так же они в процентах графики строят, что наверное будет несколько более удобным.
Nope, данные отечественные.ruscorpora.ru10 июля 2012 годаГод назад был запущен сервис «Графики», аналогичный сервису Google Books Ngram Viewer: распределение найденных по точной форме слов и словосочетаний по годам. Теперь такой график можно построить по результатам произвольного запроса к основному корпусу (а не только по точным формам, как раньше). Для этого перейдите по ссылке «Распределение по годам» на странице с результатами поиска и дождитесь ответа. Кроме того, по соседней ссылке «Статистика» доступны таблицы с распределением найденных документам по авторам, жанрам, типам, тематике текста и т. д.
данные доставляют
>>86106Да, похоже ты прав, источники разные.http://search-beta.ruscorpora.ru/ngram.xml?mode=main&t1=яндекс&start=1800&end=2012http://books.google.com/ngrams/graph?content=яндекс&year_start=1800&year_end=2008&corpus=12
Спасибо, аноны, это замечательно. Алсо, ОП, http://packages.python.org/pymorphy/
>>86113Знаю. Но хочу попробовать adaBoost для обучения и надо углубится в java.
>>86104> Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий.Если сравнивать эту штуку с гуглем по предлогам то получается что одна единица там примерно соответствует 0,0001%
>>86104
> Расстраивает, что нет нормировки по (или к) соотношению к количеству анализируемых изданий.
Если сравнивать эту штуку с гуглем по предлогам то получается что одна единица там примерно соответствует 0,0001%
- wakaba 3.0.7 + futaba + futallaby -