在.com区域中搜索免费名称时,我对已被占用但未使用的域的数量感到惊讶。 显然,世界上所有主要语言的所有已发音字母组合都已注册。 甚至是不可发音的短组合。 要么是一个庞大的域名市场,要么是像其他所有人一样想到相同的名字? 让我们看一下裸露的统计数据...
目前,有1.37亿个.com域名注册。 根据
Verisign的资料 ,截至2019年1月27日,“活动区域”中共有137,756,106个.com域。 在此之前,我使用DNS区域文件检查了数字的正确性。
其中,约有三分之一被使用(企业,个人网站,电子邮件等)。 显然,没有使用三分之一,而后三分之一用于各种投机目的。
使用域的方法如下(在2188个样本中):

我怎么得到这些数字
我开始从区域的DNS文件中随机选择顶级域名(该文件已于01/21/2019下载,并继续进行爬行直到01/23/2019),直到达到100,000个有效域(并非所有条目都在那里有效,有些充当捕获的陷阱)非法分发区域文件的人,其中大约1%是名称服务器;排除它们后,仍然保留98 854个有效域。
对于每个域,我编写了以下内容:
- WHOIS记录
- 顶级域和
www
子域的所有DNS记录(直接对WHOIS记录中指定的名称服务器进行ANY
DNS查询);
- 顶级域和
www
子域的主页的HTTP和HTTPS响应(状态代码,标头和正文)(无效的SSL证书将该域归类为“ Error
类别);
- 适用于Linux的Mozilla Firefox 64.0主页的屏幕截图。
从新加坡数据中心的一台服务器进行扫描花费了48个多小时。 然后,我为所有无法通过HTTP或HTTPS连接的域(对于临时错误)启动了第二阶段的爬网。 最后,对于示例中的2188个域,我手动检查了所有错误,以防爬虫超时或JavaScript中阻止DOM事件。
然后,我编写了一个帮助程序脚本,以根据网站的屏幕快照和内容加快网站的手动分类。
该脚本将可能的类别显示为具有默认内容的按钮列表使用此脚本,我在两天内对网站进行了分类。 并非必须手动区分所有站点:在某些情况下,<title>字段中的类别很明显,因此我应用了正则表达式。 在其他情况下,屏幕截图还不够,因此我不得不在浏览器中手动打开域以进行验证。
统计摘要和结论
100,000个域名中排名前10位的.com注册商

- GoDaddy已注册了所有域名的三分之一。 这些是大约4,500万个域。 其中,每三个停车页面。 换句话说,互联网上所有.com域中超过10%放置了GoDaddy广告。
- 尽管是1851个注册服务商的样本,但它们由少数运营商控制。 例如,仅DropCatch.com控制着一千多个注册商:DropCatch.com 1000 LLC,DropCatch.com 1001 LLC,DropCatch.com 1002等等。 其他注册服务商使用带数字的类似方案,但有些注册机构的方案不那么明显。
- 在过去的一年中,注册了25%的域名。
100,000个单位样本中的域年龄(以年为单位)

域类别
工作时会补充类别列表。 例如,我没想到要赌博的域名太多(使用别名)。
对于大多数类别,提供了随机选择的屏幕截图。
含量(31%或〜4,300万)
内容是具有唯一内容的域。 这是我放置任何网站的默认类别,以防万一。

广告(23%或〜3100万)
请注意,该类别中的一半域名是GoDaddy的停车页面,GoDaddy在其中放置了Google广告来搜索与该域名相关的关键字。

没有网路伺服器(11%或〜1600万)
如果在顶级域或www子域的端口80或443上无法连接或未收到有效响应,
而该域没有MX记录,则将其放在此类别中。 其中一些域可能以其他方式使用,例如,用作FTP或游戏服务器,但在我看来,这样的少数群体。 IPv6上的所有站点也都到达了这里,因为搜寻器服务器仅配置了IPv4。
空(9.2%或〜1300万)
空域是Web服务器正在响应的域,但返回空白页,404错误或空白模板(例如WordPress默认设置)。
空域和停放域之间的区别在于,空域大概是由用户配置的,但是尚未添加内容。

待售(7.1%或〜980万)
许多域名通过各种经纪人和交易平台出售。 尽管他们的网站仅谈论“超过200,000”个可供购买的域名,但其中几乎有一半似乎是由HugeDomains出售的。 我只考虑了来自已知站点的域名,或者不包括广告中的联系方式,因为广告网络和经纪人经常撒谎,代表域名所有者(相反,我将所有此类域名归类为广告)。

错误(5.7%或〜790万)
如果该域返回了任何类型的错误(无论是HTTP错误还是页面错误),我都会将其分配给该类别。
请注意,如果某些私有域使用常规身份验证,可能会意外到达此处,因为我没有将403 Forbidden(由于缺少身份验证的基本凭据)与其他错误区分开。

停放(4.8%或〜650万)
寄存的域名显示注册商页面或表明该域名尚未配置。 要属于此类别,域必须发布一个没有外部广告的页面。 他可以广告自己的服务,但不能在广告网络中发布广告。

赌博(3.0%或〜400万)
几乎所有此类站点都使用中文,并且都使用别名:通常是数字或辅音的短字符串(例如17770012或tdwhtr)。 它们遵循常见的模式并包含相似的图像,通常带有自动生成的徽标。 我想他们的目标是吸引人们好运。

邮件(2.6%或〜350万)
如果该域没有属于任何类别,但是在DNS中有MX记录(用于电子邮件),则将其分配给“邮件”类别。 没有检查邮件服务器或传递是否正常。 这些域中有许多可能没有用于电子邮件。
重新导向(1.1%或〜160万)
这包括发送到Facebook页面的“虚荣域名”,备用公司名称等。
私人(0.64%或〜90万)
这些是未经授权(或在某些情况下为注册)无法获得任何内容的网站。

色情(0.59%或〜80万)
像赌博网站一样,许多色情网站都以不同的别名运作。 网站主要使用中文,域名遵循类似的命名方式。 由于许多网站直接显示色情内容(没有警告),因此我没有截图。