[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]

[Burichan] [Foliant] [Futaba] [Greenhell] [Gurochan] [Photon] - [Home] [Manage] [Archive]

[Return]
Posting mode: Reply
Leave these fields empty (spam trap):
Name
Link
Subject
Comment
File
Verification
Password (for post and file deletion)
  • Supported file types are: GIF, JPG, PDF, PNG
  • Maximum file size allowed is 20480 KB.
  • Images greater than 200x200 pixels will be thumbnailed.

File: 1379357764557.jpg -(262726 B, 850x601) Thumbnail displayed, click image for full size.
262726 No.96929  

Анончики, новерь представляет собой набор текста упорядоченного по тематике (треды) и времени. Было бы интересно проанализировать этот материал и, напрмер, выделить вехи, периодичность и зависимость наполнения контента новеря от различных факторов. Особенно если учесть, что, как нам известно, текст относится к слабоструктурированным данным сложным для анализа и обработки. Так эта задача становится нетривиальной.

>> No.96932  
File: 1379360138035.jpg -(67613 B, 450x313) Thumbnail displayed, click image for full size.
67613

Исследование покажет тебе временные метки падения крупноборд, а также их вайпа.

>> No.96933  

>>96929
Тебя скорость постов/день интересует или что?

>> No.96934  

>>96932
Это наверняка. Но никто не мешает исключить эти факторы. С другой стороны подобные выборки позволят выявить отличия между новерьками и понабежавшими.
>>96933
Скорость постов сама по себе интереса не представляет, но она может быть использована как эндогенная переменная.

>> No.96935  

>>96934
Попробуй сформулировать свое желание более конкретно.

>> No.96936  
File: 1379365433726.jpg -(210352 B, 850x1167) Thumbnail displayed, click image for full size.
210352

>>96935
Начнём с того, что я хочу по какому-то принципу структурировать архив новеря. Во-первых, нужно отсортировать посты по дате, во вторых разбить их на временные промежутки, в третьих структурировать по какому-то признаку текст находящийся в этих периодах. Однако отсортировать можно и по тредам, однако тут возникают проблемы с привязкой ко времени.

>> No.96938  

>>96936
Вот тебе привязка даты к номеру поста, делай что хочешь.
http://rghost.ru/48793312

>> No.96941  
File: 1379370402154.png -(30044 B, 1920x1080) Thumbnail displayed, click image for full size.
30044

олсо

>> No.96951  

>>96941
Что именно изображено на графике? Это количество постов в течение суток, то есть от 00:00:00 до 23:23:59? Есть вариант взять хотя бы скользящее окно длиной в сутки, тогда получится лесенка с шагом ±1.

Алсо, /r/ скрипты, данные и вообще все, что относится к сбору статистики по сообщениям на бордах.

Можно предположить, что процесс постинга на борды — это inhomogeneous poisson process. На 4chan, кстати, это вообще простой пуассоновский процесс, скорость там практически одинаковая в течение суток, но это не интересно.

Проблема с неоднородным пуассоновским потоком в том, что если приближать скорость постинга (lambda) произвольной функцией, то лучшим вариантом окажутся просто дельта-функции во время добавления постов.

Разумным предположением является то, что скорость постинга не меняется резко. Есть, например, работа, в которой логарифм скорости постинга (lambda) приближается суммой синусов и косинусов, своего рода частичная сумма ряда Фурье. Количество членов в сумме ограничивает частоту:

http://www.wseas.us/e-library/conferences/2010/Taipei/AIBE/AIBE-26.pdf
http://dl.acm.org/citation.cfm?id=2170389

У этой модели тоже есть проблемы. Например, синусы и косинусы не имеют начальной фазы. Понятно, что это усложнит выкладки для метода максимального правдоподобия, использованного в статье. Можно попробовать модифицировать эту модель, добавив фазу, и воспользоваться каким-либо другим методом, например численным/итеративным, чтобы не возиться с символьными вычислениями. Результат от этого хуже не станет, а возни меньше. Но для начала можно просто попробовать применить существующую модель для своих данных.

>> No.96952  

Собственно интересно зафиттить данные как следует сколько-нибудь адекватной реальности моделью потому, что это сделано до сих пор не было. На том же http://chanstat.ru неизвестно, как собирается статистика и графики выглядят так, как будто время поделено на интервалы (минуты, сутки и т.п.), построены точки, отображающие количество постов внутри интервалов и все это приближено каким-то полиномом, что вообще действительности никак не соответствует.

>> No.96953  

>>96952

> интервалов и_,_ все это

self fix

>> No.96954  
File: 1379440714204.jpg -(187681 B, 560x791) Thumbnail displayed, click image for full size.
187681

>>96951

> Что именно изображено на графике? Это количество постов в течение суток, то есть от 00:00:00 до 23:23:59?

This. Не думал, что posts/day можно интерпретировать как-то иначе.

> Алсо, /r/ скрипты, данные и вообще все, что относится к сбору статистики по сообщениям на бордах.

Выкачиваем все треды новеря, дальше:

cat *html | sed 's/[0-9][0-9]\/[0-9][0-9]\/[0-9][0-9](...)[0-9][0-9]:[0-9][0-9][^N]*No.[0-9]\+/\n~~~&\n/g;' | grep ~~~ | sed 's/~~~//g; s/<.*>/ /g;' > date-post.txt
cat date-post.txt | uniq -D -w 10 > d2.txt
prev=6183 ; cat d2.txt | while read d p ; do if [ "$last" != "$d" ] ; then echo -n $last" " ; echo $j-$prev | bc ; last=$d ; prev=$p ; else j=$p ; fi ; done > data.txt

в gnuplot:

set xdata time
set timefmt "%Y-%m-%d"
set format x "%Y-%m-%d"
set ylabel "posts/day"
set term png giant size 1920,1080
set output "graph.png"
plot "data.txt" using 1:2 with lines

Развлекайся.

>> No.96957  
File: 1379441977892.jpg -(260405 B, 1020x700) Thumbnail displayed, click image for full size.
260405

>>96954
вместо
cat date-post.txt | uniq -D -w 10 > d2.txt
надо
cat date-post.txt | sed 's/No./ /g;' | sort | uniq -D -w 10 > d2.txt

>> No.96958  
File: 1379444174988.jpg -(140031 B, 540x720) Thumbnail displayed, click image for full size.
140031

Нет, все-таки я пропустил строчку. Тяжело по history такое восстанавливать.
Тогда пусть будет так.
cat date-post.txt | sed 's/^/20/g; s/\//-/g; s/(.*No./ /g;' | sort | uniq -D -w 10 > d2.txt

>> No.103274  

>>96929
Зачем?

>> No.103281  

>>96929
Итог анализа: новерь не торт.

>> No.108800  
File: 1413301524850.jpg -(38824 B, 400x362) Thumbnail displayed, click image for full size.
38824
>> No.108842  

>>103281
К сожалению,да.

>> No.108847  

>>103281
>>108842
вы где-то подцепили нетортянку, примите похуин

>> No.108848  

>>103281
>>108842
>>108847
Обсудили уже два года назад.



Delete Post []
Password

[/b/] [/d/] [/tu/] [/a/] [/ph/] [/wa/] [/cg/] [/t/] [/p/]