🙎🏼 🍙 🐄 Habrastatistics：浏览网站上访问量最高和访问量最少的部分 🐰 ☕️ 🍑

哈Ha

在上一部分中，通过主要参数（文章数量，其观点和等级）分析了Habr的出勤率。但是，未考虑网站各部分的受欢迎程度问题。对此进行更详细的研究，并找到最受欢迎和最受欢迎的集线器变得很有趣。最后，我将更详细地研究“极客时间效应”，最后，读者将收到有关新收视率的最佳文章的新选择。

谁在乎发生了什么，继续被削减。

我再次提醒您，统计数据和评级不是官方的，我没有任何内幕信息。也不能保证我没有在某个地方弄错或没有错过任何东西。但是，我仍然认为这很有趣。我们将从与代码无关的代码开始，可以跳过第一部分。

资料收集

在解析器的第一个版本中，仅考虑了视图，评论和文章的等级。这已经很好，但是不允许您进行更复杂的查询。现在该分析网站的主题部分了，这将使您能够进行相当有趣的研究，例如，了解“ C ++”部分的流行度在过去几年中如何变化。

文章解析器得到了改进，现在返回了文章所属的中心，以及作者的昵称和他的评分（在这里您还可以做很多有趣的事情，但稍后再说）。数据保存在大约以下类型的csv文件中：

2018-12-18T12:43Z,https://habr.com/ru/post/433550/," Slack —  ,      ,  ",votes:7,votesplus:8,votesmin:1,bookmarks:32, views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft ...

获取站点的主要主题中心的列表。

 def get_as_str(link: str) -> Str: try: r = requests.get(link) return Str(r.text) except Exception as e: return Str("") def get_hubs(): hubs = [] for p in range(1, 12): page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p) # page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes # page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop # page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin for hub in page_html.split("media-obj media-obj_hub"): info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags') if "*</span>" in info: hub_name = info.find_between('/', '/"') if len(hub_name) > 0 and len(hub_name) < 32: hubs.append(hub_name) print(hubs)

find_between函数和Str类突出显示了两个标签之间的界线，我之前已经使用过它们。主题中心标记有“ *”，因此易于突出显示，您也可以取消注释相应的行以获取其他类别的部分。

在get_hubs函数的输出中，我们获得了相当不错的列表，并将其保存为字典。我特别引用了整个列表，以便可以估计其数量。

 hubs_profile = {'infosecurity', 'programming', 'webdev', 'python', 'sys_admin', 'it-infrastructure', 'devops', 'javascript', 'open_source', 'network_technologies', 'gamedev', 'cpp', 'machine_learning', 'pm', 'hr_management', 'linux', 'analysis_design', 'ui', 'net', 'hi', 'maths', 'mobile_dev', 'productpm', 'win_dev', 'it_testing', 'dev_management', 'algorithms', 'go', 'php', 'csharp', 'nix', 'data_visualization', 'web_testing', 's_admin', 'crazydev', 'data_mining', 'bigdata', 'c', 'java', 'usability', 'instant_messaging', 'gtd', 'system_programming', 'ios_dev', 'oop', 'nginx', 'kubernetes', 'sql', '3d_graphics', 'css', 'geo', 'image_processing', 'controllers', 'game_design', 'html5', 'community_management', 'electronics', 'android_dev', 'crypto', 'netdev', 'cisconetworks', 'db_admins', 'funcprog', 'wireless', 'dwh', 'linux_dev', 'assembler', 'reactjs', 'sales', 'microservices', 'search_technologies', 'compilers', 'virtualization', 'client_side_optimization', 'distributed_systems', 'api', 'media_management', 'complete_code', 'typescript', 'postgresql', 'rust', 'agile', 'refactoring', 'parallel_programming', 'mssql', 'game_promotion', 'robo_dev', 'reverse-engineering', 'web_analytics', 'unity', 'symfony', 'build_automation', 'swift', 'raspberrypi', 'web_design', 'kotlin', 'debug', 'pay_system', 'apps_design', 'git', 'shells', 'laravel', 'mobile_testing', 'openstreetmap', 'lua', 'vs', 'yii', 'sport_programming', 'service_desk', 'itstandarts', 'nodejs', 'data_warehouse', 'ctf', 'erp', 'video', 'mobileanalytics', 'ipv6', 'virus', 'crm', 'backup', 'mesh_networking', 'cad_cam', 'patents', 'cloud_computing', 'growthhacking', 'iot_dev', 'server_side_optimization', 'latex', 'natural_language_processing', 'scala', 'unreal_engine', 'mongodb', 'delphi', 'industrial_control_system', 'r', 'fpga', 'oracle', 'arduino', 'magento', 'ruby', 'nosql', 'flutter', 'xml', 'apache', 'sveltejs', 'devmail', 'ecommerce_development', 'opendata', 'Hadoop', 'yandex_api', 'game_monetization', 'ror', 'graph_design', 'scada', 'mobile_monetization', 'sqlite', 'accessibility', 'saas', 'helpdesk', 'matlab', 'julia', 'aws', 'data_recovery', 'erlang', 'angular', 'osx_dev', 'dns', 'dart', 'vector_graphics', 'asp', 'domains', 'cvs', 'asterisk', 'iis', 'it_monetization', 'localization', 'objectivec', 'IPFS', 'jquery', 'lisp', 'arvrdev', 'powershell', 'd', 'conversion', 'animation', 'webgl', 'wordpress', 'elm', 'qt_software', 'google_api', 'groovy_grails', 'Sailfish_dev', 'Atlassian', 'desktop_environment', 'game_testing', 'mysql', 'ecm', 'cms', 'Xamarin', 'haskell', 'prototyping', 'sw', 'django', 'gradle', 'billing', 'tdd', 'openshift', 'canvas', 'map_api', 'vuejs', 'data_compression', 'tizen_dev', 'iptv', 'mono', 'labview', 'perl', 'AJAX', 'ms_access', 'gpgpu', 'infolust', 'microformats', 'facebook_api', 'vba', 'twitter_api', 'twisted', 'phalcon', 'joomla', 'action_script', 'flex', 'gtk', 'meteorjs', 'iconoskaz', 'cobol', 'cocoa', 'fortran', 'uml', 'codeigniter', 'prolog', 'mercurial', 'drupal', 'wp_dev', 'smallbasic', 'webassembly', 'cubrid', 'fido', 'bada_dev', 'cgi', 'extjs', 'zend_framework', 'typography', 'UEFI', 'geo_systems', 'vim', 'creative_commons', 'modx', 'derbyjs', 'xcode', 'greasemonkey', 'i2p', 'flash_platform', 'coffeescript', 'fsharp', 'clojure', 'puppet', 'forth', 'processing_lang', 'firebird', 'javame_dev', 'cakephp', 'google_cloud_vision_api', 'kohanaphp', 'elixirphoenix', 'eclipse', 'xslt', 'smalltalk', 'googlecloud', 'gae', 'mootools', 'emacs', 'flask', 'gwt', 'web_monetization', 'circuit-design', 'office365dev', 'haxe', 'doctrine', 'typo3', 'regex', 'solidity', 'brainfuck', 'sphinx', 'san', 'vk_api', 'ecommerce'}

为了进行比较，geektimes部分看起来更适中：

 hubs_gt = {'popular_science', 'history', 'soft', 'lifehacks', 'health', 'finance', 'artificial_intelligence', 'itcompanies', 'DIY', 'energy', 'transport', 'gadgets', 'social_networks', 'space', 'futurenow', 'it_bigraphy', 'antikvariat', 'games', 'hardware', 'learning_languages', 'urban', 'brain', 'internet_of_things', 'easyelectronics', 'cellular', 'physics', 'cryptocurrency', 'interviews', 'biotech', 'network_hardware', 'autogadgets', 'lasers', 'sound', 'home_automation', 'smartphones', 'statistics', 'robot', 'cpu', 'video_tech', 'Ecology', 'presentation', 'desktops', 'wearable_electronics', 'quantum', 'notebooks', 'cyberpunk', 'Peripheral', 'demoscene', 'copyright', 'astronomy', 'arvr', 'medgadgets', '3d-printers', 'Chemistry', 'storages', 'sci-fi', 'logic_games', 'office', 'tablets', 'displays', 'video_conferencing', 'videocards', 'photo', 'multicopters', 'supercomputers', 'telemedicine', 'cybersport', 'nano', 'crowdsourcing', 'infographics'}

同样，其余的集线器也已保存。现在，编写返回结果的函数很容易，本文涉及的是极客时间或个人资料中心。

 def is_geektimes(hubs: List) -> bool: return len(set(hubs) & hubs_gt) > 0 def is_geektimes_only(hubs: List) -> bool: return is_geektimes(hubs) is True and is_profile(hubs) is False def is_profile(hubs: List) -> bool: return len(set(hubs) & hubs_profile) > 0

其他部分（“开发”，“管理”等）也具有类似的功能。

处理中

现在该开始分析了。我们加载数据集并处理中心的数据。

 def to_list(s: str) -> List[str]: # "user:popular_science+astronomy" => [popular_science, astronomy] return s.split(':')[1].split('+') def to_date(dt: datetime) -> datetime.date: return dt.date() df = pd.read_csv("habr_2019.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#') dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ') dates += datetime.timedelta(hours=3) df['date'] = dates.map(to_date, na_action=None) hubs = df["hubs"].map(to_list, na_action=None) df['hubs'] = hubs df['is_profile'] = hubs.map(is_profile, na_action=None) df['is_geektimes'] = hubs.map(is_geektimes, na_action=None) df['is_geektimes_only'] = hubs.map(is_geektimes_only, na_action=None) df['is_admin'] = hubs.map(is_admin, na_action=None) df['is_develop'] = hubs.map(is_develop, na_action=None)

现在，我们可以按天对数据进行分组，并按不同的中心显示出版物的数量。

 g = df.groupby(['date']) days_count = g.size().reset_index(name='counts') year_days = days_count['date'].values grouped = g.sum().reset_index() profile_per_day_avg = grouped['is_profile'].rolling(window=20, min_periods=1).mean() geektimes_per_day_avg = grouped['is_geektimes'].rolling(window=20, min_periods=1).mean() geektimesonly_per_day_avg = grouped['is_geektimes_only'].rolling(window=20, min_periods=1).mean() admin_per_day_avg = grouped['is_admin'].rolling(window=20, min_periods=1).mean() develop_per_day_avg = grouped['is_develop'].rolling(window=20, min_periods=1).mean()

使用Matplotlib显示已发表文章的数量：

我将图表中的“ geektimes”和“ geektimes only”分为两类，因为一篇文章可以同时属于两个部分（例如，“ DIY” +“微控制器” +“ C ++”）。我用“个人资料”这个名称突出显示了该网站的个人资料文章，尽管英语中的个人资料可能对此不太正确。

在上一部分中，我们询问了与今年夏天以来针对极客时间的商品支付规则的变化有关的“极客时间效应”。我们得出单独的极客时间文章：

 df_gt = df[(df['is_geektimes_only'] == True)] group_gt = df_gt.groupby(['date']) days_count_gt = group_gt.size().reset_index(name='counts') grouped = group_gt.sum().reset_index() year_days_gt = days_count_gt['date'].values view_gt_per_day_avg = grouped['views'].rolling(window=20, min_periods=1).mean()

结果很有趣。文章极客时间的观看次数占总观看次数的比例大约为1：5。但是，如果视图总数出现明显波动，则“有趣”文章的视图将保持在大致相同的水平。

您还可以注意到，更改规则后，“极客时间”部分中文章的观看总数下降了，但“按眼”下降了不超过总数的5％。

看到每篇文章的平均观看次数很有趣：

对于“有趣”的文章，它比平均水平高40％左右。这可能不足为奇。对我来说，四月初的失败尚不明确，也许是这样，还是某种解析错误，或者其中一位作者是geektimes休假了；）。

顺便说一句，在图表上，文章浏览量的峰值是另外两个-新年和五月假期。

集线器

让我们继续对集线器进行预期的分析。我们将按视图数显示前20个中心：

 hubs_info = [] for hub_name in hubs_all: mask = df['hubs'].apply(lambda x: hub_name in x) df_hub = df[mask] count, views = df_hub.shape[0], df_hub['views'].sum() hubs_info.append((hub_name, count, views)) # Draw hubs hubs_top = sorted(hubs_info, key=lambda v: v[2], reverse=True)[:20] top_views = list(map(lambda x: x[2], hubs_top)) top_names = list(map(lambda x: x[0], hubs_top)) plt.rcParams["figure.figsize"] = (8, 6) plt.bar(range(0, len(top_views)), top_views) plt.xticks(range(0, len(top_names)), top_names, rotation=90) plt.ticklabel_format(style='plain', axis='y') plt.tight_layout() plt.show()

结果：

令人惊讶的是，就观看而言，“信息安全”中心被证明是最受欢迎的，“编程”和“大众科学”也位居前五名。

Antitope需要Gtk和可可粉。

我会告诉你一个秘密，尽管这里没有显示视图数，但是在这里也可以看到顶部的中心。

等级

最后是承诺的评分。使用对中心的分析数据，我们可以显示2019年最受欢迎的中心上最受欢迎的文章。

信息安全

一年来我在Sberbank的工作方式为 304000，查看599条评论，评分+ 457.0 / -14.0
扔进垃圾桶的智能灯泡是个人信息的宝贵来源，它具有 232,000次查看，147条评论，评分+ 75.0 / -11.0
欺诈者和EDS-一切都很糟糕 176,000次查看，778条评论，评分+ 356.0 / -0.0
Megafon如何在移动订阅上睡觉 166,000次浏览，676条评论，评分+ 624.0 / -2.0
黑客VK，两因素身份验证将无法保存 148,000次查看，332条评论，评分+ 124.0 / -17.0
浏览器如何帮助Major Major同志 132,000次观看，321条评论，评分+ 246.0 / -19.0
历史上最大的转储：27亿个帐户，其中7.73亿个独特的 123,000浏览次数，154条评论，评分+ 86.0 / -5.0
亲爱的，我们杀死了互联网 121,000次浏览，933条评论，评分+ 392.0 / -83.0
免费提供“移动内容”，无需短信和注册。 Megafon欺诈详细信息 114,000次查看，478条评论，评分+ 488.0 / -8.0
Rostelecom个人帐户中的端口扫描程序 111,000次查看，194条评论，评分+ 300.0 / -8.0

程式设计

大约一个人 167,000观看次数，249条评论，评分+ 239.0 / -33.0
忘记OOP的速度越快，对您和您的程序越有好处129,000视图，1271条注释，评分+ 131.0 / -63.0
为什么高级开发人员无法找到工作 119,000次查看，901条评论，评分+ 151.0 / -14.0
老人不属于这里吗？我们将在35次 116,000次观看，649条评论，评分+ 222.0 / -16.0后进行编程
新的编程语言无意识地杀死了我们与现实的联系 106,000次查看，764条评论，评分+ 164.0 / -52.0
我从痛苦的经验（超过30年的软件开发经验）中学到的知识 101,000次查看，128条评论，评分+ 178.0 / -9.0
最稀有，最昂贵的编程语言 82900视图，119条注释，评分+ 38.0 / -10.0
在KPI 80300视图中使用JavaScript和Node.js进行授课，共14条评论，评分+ 34.0 / -2.0
以IT术语为例的土豆种植过程 78000次查看，86条评论，评分+ 84.0 / -14.0
256行裸机C ++：在几个小时内从头开始编写光线跟踪器 77600次查看，124条评论，评分+ 241.0 / -0.0

科普

设计师吸烟的东西：一支不寻常的枪支 236,000次浏览，123条评论，评分+ 119.0 / -9.0
科学家发现了地球上最古老的脊椎动物 234,000次浏览，212条评论，评分+ 82.0 / -14.0
“切尔诺贝利”系列：观看和思考 173,000次观看，803条评论，评分+ 164.0 / -25.0
一名12岁的青少年在其家庭实验室中进行了核聚变反应 145,000次观看，280条评论，评分+ 126.0 / -29.0
玫瑰合金和堕落的克伦卡人的故事 134,000观看次数，244条评论，评分+ 217.0 / -1.0
增加它！现代增加的分辨率 134000观看次数，235条评论，评分+ 377.0 / -1.0
Boeing-737 Max的软件由外包商编写，每小时收入9美元；可浏览126,000次；获得560条评论；评分为+ 153.0 / -6.0
不要紧张，不要着急，不要打断：一场悲剧的故事 121,000次观看，384次评论，评分+ 242.0 / -4.0
数学家找到了乘以 108,000的视图，222条评论，评分+ 173.0 / -10.0 的完美方法
新的编程语言无意识地杀死了我们与现实的联系 106,000次查看，764条评论，评分+ 164.0 / -52.0

职业生涯

一年来我在Sberbank的工作方式为 304000，查看599条评论，评分+ 457.0 / -14.0
我用代码审查破坏了开发人员的生活，对不起 187,000次查看，21条评论，评分+ 37.0 / -3.0
开发王 179,000浏览次数，668条评论，评分+ 315.0 / -60.0
大约一个人 167,000观看次数，249条评论，评分+ 239.0 / -33.0
退休以 22,158,000观看次数，927条评论，评分+ 259.0 / -100.0
如何在工作场所更换灯泡，以免被解雇？ 139000浏览，762评论，评分+ 200.0 / -20.0
Innovation in Russian 128,000浏览次数，612评论，评分+ 480.0 / -33.0
为什么高级开发人员无法找到工作 119,000次查看，901条评论，评分+ 151.0 / -14.0
“疲倦”的员工：有没有出路？ 117000浏览，398评论，评分+ 210.0 / -14.0
老人不属于这里吗？我们将在35次 116,000次观看，649条评论，评分+ 222.0 / -16.0后进行编程

资讯科技法例

欺诈者和EDS-一切都很糟糕 176,000次查看，778条评论，评分+ 356.0 / -0.0
Megafon如何在移动订阅上睡觉 166,000次浏览，676条评论，评分+ 624.0 / -2.0
Innovation in Russian 128,000浏览次数，612评论，评分+ 480.0 / -33.0
免费提供“移动内容”，无需短信和注册。 Megafon欺诈详细信息 114,000次查看，478条评论，评分+ 488.0 / -8.0
哈萨克斯坦当局试图通过引入证书来掩饰自己的失败 111,000次查看，77条评论，评分+ 122.0 / -14.0
Protonmail如何在俄罗斯被阻止 102000观看次数，398条评论，评级+ 418.0 / -7.0
国家杜马通过了《杜鲁涅隔离法》，共三读，共 88,200次观看，878条评论，评分+ 73.0 / -18.0
作为一名程序员，银行选择并阅读了 87200次视图，611条评论，评分+ 166.0 / -9.0
通信和大众传媒部已批准了有关隔离Runet的法律草案 83600意见，364条评论，评分+ 79.0 / -9.0
评论的详细答案以及有关俄罗斯联邦提供者的生活的一些信息，共 74700次查看，共389条评论，评分+ 290.0 / -1.0

网站开发

老人不属于这里吗？我们将在35次 116,000次观看，649条评论，评分+ 222.0 / -16.0后进行编程
How to make site in 2019 in 110,000 views，278 comments，rating + 233.0 / -11.0
学习Docker，第1部分：基础知识 91300视图，24条评论，评分+ 52.0 / -10.0
在KPI 80300视图中使用JavaScript和Node.js进行授课，共14条评论，评分+ 34.0 / -2.0
培训生 Vasya 及其关于幂等API的故事 68900视图，160条评论，评分+ 216.0 / -3.0
对联接的理解被打破了。坦白说，这绝对不是圈子的交集，共 65,900次查看，223条评论，评分+ 138.0 / -41.0
为什么您不需要花费时间来创建利基主题网站 62700次查看，243条评论，评分+ 179.0 / -13.0
我们从零开始制作了一个现代Web应用程序 62200视图，122条评论，评分+ 56.0 / -8.0
Vue.js的黑暗日子60,800观看次数，133条评论，评分+ 77.0 / -6.0
为什么现代Web开发如此复杂？ 1,577,700 部分视图，319条评论，评分+ 101.0 / -6.0

GTK

最后，为了不冒犯他人，我将为您提供访问量最少的枢纽“ gtk”的评分。其中，一年中发表了一篇文章，它也是“自动”占据评分的第一行。

使用GtkApplication。呈现librsvg 1700视图，9条评论，评分+ 9.0 / -1.0的功能

结论

没有结论。祝大家阅读愉快。

Habrastatistics：浏览网站上访问量最高和访问量最少的部分

资料收集

处理中

集线器

等级

结论

More articles: