没有使用多少个.com域名?

在.com区域中搜索免费名称时,我对已被占用但未使用的域的数量感到惊讶。 显然,世界上所有主要语言的所有已发音字母组合都已注册。 甚至是不可发音的短组合。 要么是一个庞大的域名市场,要么是像其他所有人一样想到相同的名字? 让我们看一下裸露的统计数据...

目前,有1.37亿个.com域名注册。 根据Verisign的资料 ,截至2019年1月27日,“活动区域”中共有137,756,106个.com域。 在此之前,我使用DNS区域文件检查了数字的正确性。

其中,约有三分之一被使用(企业,个人网站,电子邮件等)。 显然,没有使用三分之一,而后三分之一用于各种投机目的。

使用域的方法如下(在2188个样本中):



我怎么得到这些数字


我开始从区域的DNS文件中随机选择顶级域名(该文件已于01/21/2019下载,并继续进行爬行直到01/23/2019),直到达到100,000个有效域(并非所有条目都在那里有效,有些充当捕获的陷阱)非法分发区域文件的人,其中大约1%是名称服务器;排除它们后,仍然保留98 854个有效域。

对于每个域,我编写了以下内容:

  • WHOIS记录
  • 顶级域和www子域的所有DNS记录(直接对WHOIS记录中指定的名称服务器进行ANY DNS查询);
  • 顶级域和www子域的主页的HTTP和HTTPS响应(状态代码,标头和正文)(无效的SSL证书将该域归类为“ Error类别);
  • 适用于Linux的Mozilla Firefox 64.0主页的屏幕截图。

从新加坡数据中心的一台服务器进行扫描花费了48个多小时。 然后,我为所有无法通过HTTP或HTTPS连接的域(对于临时错误)启动了第二阶段的爬网。 最后,对于示例中的2188个域,我手动检查了所有错误,以防爬虫超时或JavaScript中阻止DOM事件。

然后,我编写了一个帮助程序脚本,以根据网站的屏幕快照和内容加快网站的手动分类。


该脚本将可能的类别显示为具有默认内容的按钮列表

使用此脚本,我在两天内对网站进行了分类。 并非必须手动区分所有站点:在某些情况下,<title>字段中的类别很明显,因此我应用了正则表达式。 在其他情况下,屏幕截图还不够,因此我不得不在浏览器中手动打开域以进行验证。

统计摘要和结论


100,000个域名中排名前10位的.com注册商




  • GoDaddy已注册了所有域名的三分之一。 这些是大约4,500万个域。 其中,每三个停车页面。 换句话说,互联网上所有.com域中超过10%放置了GoDaddy广告。
  • 尽管是1851个注册服务商的样本,但它们由少数运营商控制。 例如,仅DropCatch.com控制着一千多个注册商:DropCatch.com 1000 LLC,DropCatch.com 1001 LLC,DropCatch.com 1002等等。 其他注册服务商使用带数字的类似方案,但有些注册机构的方案不那么明显。
  • 在过去的一年中,注册了25%的域名。

100,000个单位样本中的域年龄(以年为单位)




域类别


工作时会补充类别列表。 例如,我没想到要赌博的域名太多(使用别名)。

对于大多数类别,提供了随机选择的屏幕截图。

含量(31%或〜4,300万)


内容是具有唯一内容的域。 这是我放置任何网站的默认类别,以防万一。



广告(23%或〜3100万)


请注意,该类别中的一半域名是GoDaddy的停车页面,GoDaddy在其中放置了Google广告来搜索与该域名相关的关键字。



没有网路伺服器(11%或〜1600万)


如果在顶级域或www子域的端口80或443上无法连接或未收到有效响应, 而该域没有MX记录,则将其放在此类别中。 其中一些域可能以其他方式使用,例如,用作FTP或游戏服务器,但在我看来,这样的少数群体。 IPv6上的所有站点也都到达了这里,因为搜寻器服务器仅配置了IPv4。

空(9.2%或〜1300万)


空域是Web服务器正在响应的域,但返回空白页,404错误或空白模板(例如WordPress默认设置)。

空域和停放域之间的区别在于,空域大概是由用户配置的,但是尚未添加内容。



待售(7.1%或〜980万)


许多域名通过各种经纪人和交易平台出售。 尽管他们的网站仅谈论“超过200,000”个可供购买的域名,但其中几乎有一半似乎是由HugeDomains出售的。 我只考虑了来自已知站点的域名,或者不包括广告中的联系方式,因为广告网络和经纪人经常撒谎,代表域名所有者(相反,我将所有此类域名归类为广告)。



错误(5.7%或〜790万)


如果该域返回了任何类型的错误(无论是HTTP错误还是页面错误),我都会将其分配给该类别。

请注意,如果某些私有域使用常规身份验证,可能会意外到达此处,因为我没有将403 Forbidden(由于缺少身份验证的基本凭据)与其他错误区分开。



停放(4.8%或〜650万)


寄存的域名显示注册商页面或表明该域名尚未配置。 要属于此类别,域必须发布一个没有外部广告的页面。 他可以广告自己的服务,但不能在广告网络中发布广告。



赌博(3.0%或〜400万)


几乎所有此类站点都使用中文,并且都使用别名:通常是数字或辅音的短字符串(例如17770012或tdwhtr)。 它们遵循常见的模式并包含相似的图像,通常带有自动生成的徽标。 我想他们的目标是吸引人们好运。



邮件(2.6%或〜350万)


如果该域没有属于任何类别,但是在DNS中有MX记录(用于电子邮件),则将其分配给“邮件”类别。 没有检查邮件服务器或传递是否正常。 这些域中有许多可能没有用于电子邮件。

重新导向(1.1%或〜160万)


这包括发送到Facebook页面的“虚荣域名”,备用公司名称等。

私人(0.64%或〜90万)


这些是未经授权(或在某些情况下为注册)无法获得任何内容的网站。



色情(0.59%或〜80万)


像赌博网站一样,许多色情网站都以不同的别名运作。 网站主要使用中文,域名遵循类似的命名方式。 由于许多网站直接显示色情内容(没有警告),因此我没有截图。

Source: https://habr.com/ru/post/zh-CN440600/


All Articles