हैब्रह्रा आँकड़े

6 साल के लिए हैब्राहब की फांसी को लगभग एक सप्ताह बीत चुका है। साइट के प्रदर्शन के विकास के ग्राफ को देखना बहुत दिलचस्प होगा। क्योंकि मानक आँकड़े असंक्रामक हैं, सभी जानकारी को अपने हाथों से इकट्ठा करने और विश्लेषण करने का निर्णय लिया गया था। और इसलिए, लगभग एक हफ़्ते में सूचना एकत्र करने और एकत्र करने के लिए, और निम्नलिखित दिलचस्प डेटा प्राप्त हुए (छिपे / हटाए गए पोस्ट / उपयोगकर्ता और उनकी टिप्पणियों को ध्यान में नहीं लिया गया):

सुंदर रेखांकन, माप के तरीके, प्राप्त डेटा के साथ एक डेटाबेस, "हब्रोनोमालिस" - यह सब कट के तहत।


y - प्रति माह प्रकाशित विषयों की संख्या; x - समयरेखा, 1 मंडल - महीना

y - प्रति माह प्रकाशित टिप्पणियों की संख्या; x - समयरेखा, 1 मंडल - महीना

y - प्रति माह उपयोगकर्ता पंजीकरण की संख्या; x - समयरेखा, 1 मंडल - महीना
मुझे इस सवाल का जवाब नहीं मिला कि अगस्त 2008 में शुरू हुए पंजीकरणों की संख्या में इस तरह की विफलता के कारण क्या हुआ और सितंबर में न्यूनतम (प्रति माह 1 पंजीकरण) तक पहुंच गया। शायद इस अवधि के दौरान पंजीकृत उपयोगकर्ताओं को केवल पढ़ने के लिए बड़े पैमाने पर प्रतिबंधित / स्थानांतरित किया गया था।

y वर्तमान में प्रकाशित विषयों की औसत संख्या है; एक्स - समयरेखा, 1 डिवीजन - घंटा
यह ग्राफ इस विषय पर 6 वर्षों के लिए प्रकाशित विषयों की संख्या को गिनकर प्राप्त किया गया था। यदि आप छोटे फ़्रेम लेते हैं, तो ग्राफ़ को स्थानांतरित करना संभव है।

y वर्तमान में प्रकाशित विषयों की औसत संख्या है; एक्स - समयरेखा, 1 डिवीजन - दिन

y - पूरे समय के लिए औसत कुल ग्रेड रेटिंग; एक्स - समयरेखा, 1 डिवीजन - दिन
जैसा कि यह निकला, सप्ताहांत पर प्रकाशित विषय अधिक लाभ प्राप्त करते हैं। शायद यह इस तथ्य के कारण है कि सप्ताहांत पर वे आधे से अधिक प्रकाशित करते हैं।


y - एक्स स्केल में निर्दिष्ट विषयों की संख्या के साथ उपयोगकर्ताओं की संख्या; x - उपयोगकर्ता विषयों की संख्या
अफसोस की बात है, आधे से अधिक उपयोगकर्ताओं ने एक भी विषय प्रकाशित नहीं किया है।

y - एक्स पैमाने में निर्दिष्ट टिप्पणियों की संख्या के साथ उपयोगकर्ताओं की संख्या; x - उपयोगकर्ता टिप्पणियों की संख्या
जैसा कि ग्राफ से देखा जा सकता है, लगभग 15% उपयोगकर्ता 1-5 टिप्पणियां पोस्ट करते हैं और अपनी गतिविधि रोकते हैं।


y, एक्स पैमाने पर संकेतित कर्म की राशि वाले उपयोगकर्ताओं की संख्या है; x - उपयोगकर्ता के कर्म की राशि
20% उपयोगकर्ताओं के पास शून्य कर्म हैं। सकारात्मक भाग में उपयोगकर्ताओं की संख्या के प्रसार से प्रसन्न।

जैसा कि माना जाता था


क्योंकि हब के डीबी तक कोई सीधी पहुंच नहीं है, फिर मुझे वर्कअराउंड की तलाश करनी थी। यदि आपने गौर किया है, तो प्रत्येक विषय का पता बार में इसकी संख्या है, अर्थात्। हम habrahabr.ru/post/1 पर बहुत पहले रिकॉर्ड देख सकते हैं निर्णय जल्दी से आया, हमें सभी प्रकाशित विषयों के माध्यम से क्रमबद्ध करना पड़ा, 1 से शुरू होकर 144 400 नंबरों के साथ समाप्त हुआ (उस समय अंतिम विषय जो पहले ही समाप्त हो गया था)। इनमें से, १२१,६४१ विषय हैं, जिनमें से २५, ९ ४ ९ ड्राफ्ट में स्थानांतरित किए गए थे और कई सौ खाली थे, इस तरह: habrahabr.ru/company/muk/blog/119653 । सभी विषयों को आगे पार्सिंग के लिए फाइलों में सहेजा गया, लगभग 10GB लिया। इसके अलावा, प्रत्येक विषय को निम्नानुसार पार्स किया गया था: विषय के लेखक, रेटिंग, प्रकाशन की तारीख ली गई थी, फिर टिप्पणियों को पार्स किया गया था, जिनमें से लेखक, टिप्पणी की रेटिंग और तारीख ली गई थी। हमें तीन टेबल मिलीं। सभी उपयोगकर्ताओं को प्राप्त करने के बाद, अपने कर्म और रेटिंग के प्रत्येक मूल्य के लिए प्राप्त करना आवश्यक था। इस दृष्टिकोण के साथ, हर कोई जो कम से कम एक बार पोस्ट करता था या टिप्पणी करता था, पर विचार किया जाता था। यह सब बाहर पंप किया गया था और घड़ी के चारों ओर एक सप्ताह के लिए पार्स किया गया था। पार्सिंग के लिए सॉफ्टिंका डेटा प्राप्त करने की प्रक्रिया में लिखा गया था। हब के लिए अनुरोधों की आवृत्ति प्रति सेकंड 1 अनुरोध से अधिक नहीं थी।
DB संरचना:

यहां डेटाबेस डंप (MSSQL बैकअप) डाउनलोड करें (132Mb):

Habroanomalii


पार्सिंग के दौरान, विसंगतियों का एक पूरा गुच्छा खोजा गया था:

पीएस I प्राप्त सूचनाओं के आधार पर दिलचस्प ग्राफ के निर्माण के प्रस्तावों को स्वीकार करता है।

पोस्ट किया गया:

y - निर्दिष्ट एक्स पैमाने में पंजीकृत उपयोगकर्ता पदों की संख्या; x - समयरेखा, 1 मंडल - महीना
इस आरेख से यह निम्नानुसार है कि जो उपयोगकर्ता 2008 के मध्य से पहले पंजीकृत थे, उन्होंने सबसे अधिक विषय लिखे थे।


निम्नलिखित डेटा देखना बहुत दिलचस्प होगा:
* घंटे के अनुसार विषयों की औसत रेटिंग (दिन के हिसाब से, लेकिन अधिक दिलचस्प)
* विषय निर्माण के समय के अनुसार प्रति घंटे वोटों की औसत संख्या
* विषय निर्मित होने के समय तक घंटे द्वारा विषयों पर टिप्पणियों की औसत संख्या

इस तरह की जानकारी अधिकतम गतिविधि प्राप्त करने के लिए प्रकाशित करना कब सबसे अच्छा है, इसका अंदाजा लगा सकते हैं।

लेकिन सामान्य तौर पर टैग और हब पर सारांश आँकड़े देखना दिलचस्प होगा, लेकिन जैसा कि मैंने समझा, पार्सर को फिर से शुरू करना होगा।





एक "सभी समय का सर्वश्रेष्ठ" खंड है। यह "ऑल टाइम का सबसे खराब समय" देखना दिलचस्प होगा। habrahabr.ru/post/145045/#comment_4873731

सबसे कवर विषय:

सर्वाधिक घिसे हुए टिप्पणियाँ:

सबसे अधिक प्रभावित उपयोगकर्ता (कर्म द्वारा):



टिप्पणियों के एक दर्जन अग्रणी:


मैं ध्यान देता हूं कि पहली टिप्पणी की औसत रेटिंग +3.59 है, जबकि सभी टिप्पणियों की औसत रेटिंग +0.98 है


सबसे रोमांचक टिप्पणी

Source: https://habr.com/ru/post/In145045/


All Articles