Habrastatistics: menganalisis komentar pembaca

Hai Habr. Pada bagian sebelumnya , popularitas berbagai bagian situs dianalisis, dan secara paralel, muncul pertanyaan - data apa yang dapat diekstraksi dari komentar pada artikel. Saya juga ingin menguji satu hipotesis, yang akan saya bahas di bawah ini.


Data ternyata cukup menarik, juga memungkinkan untuk membuat "mini-rating" kecil dari komentator. Berlanjut di bawah potongan.

Pengumpulan data


Untuk analisis, kami akan menggunakan data untuk tahun 2019 ini, terutama karena daftar artikel dalam bentuk csv telah diterima dari saya. Masih mengekstraksi komentar dari setiap artikel, untungnya bagi kami, mereka disimpan di sana, dan tidak ada permintaan tambahan yang diperlukan.

Untuk mengekstrak komentar dari artikel, kode berikut cukup:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('\n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("\t\n\r\v\f")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

( ):

xxxxxxx,2019-02-06 11:50:00,0, ?
xxxxxxx-02-24 16:15:00,+1, .
xxxxxxx,2019-02-23 20:15:00,โ€“5,


, , , , . , .

, , โ€” , . , youtube โ€” , , , . , , , -. , โ€ฆ , , .. , . , , . ยซยป โ€” , __ . , .


, disclaimer. , , . , . , , .

, . , 2019 ( ). 448533 , csv- 288. , .


, .



, . ยซ ยป, 10 18 ;) , , .

:



- โ€” , , ( ).

, , , โ€” , .


, . , , 25000 .

, , :



, . 5% 60% . 10% โ€” 74% ( , , 450). , , ( , ).


, โ€” . , , , .

, 5 VoXXXX (3377 ), 0xdXXXXX (3286 ), strXXXX (3043 ), AmXXXX (2897 ) khXXXX (2748 ).

, 5 amXXXX (1395 , +3231/-309), tvXXXX (1544 , +3231/-97), WhuXXXX (921 , +2288/-13), MTXXXX (1328 , +1383/-7) amaXXXX (736 , +1340/-16).

( ) Milfgard Boomburum. , , , .

. siXX (473 , 699 ), khXX (1915 , 573 ) nicXXXXX (456 , 487 ). , . ยซยป vladXXXX (55 , 84 , 0 ), ekoXXXX (77 , 92 , 1 ) iMXXXX (225 , 205 , 12 ).


, , .

, . , ยซ ยป . - , .

.

Source: https://habr.com/ru/post/id467653/


All Articles