问题 搜索引擎在哪里开始抓取?


搜索引擎机器人使用什么作为起点?它是DNS查找还是从一些固定的知名站点列表开始?任何猜测或建议?


3337
2017-09-03 10:30


起源

这个问题似乎是偏离主题的,因为它与编程无关。看到 我在这里可以问什么主题 在帮助中心。也许 Web Apps Stack Exchange 会是一个更好的地方。 - jww


答案:


您的问题可以通过两种方式解释:

您是否在询问搜索引擎从哪里开始抓取,或者他们开始​​抓取特定网站的位置?

我不知道大球员是如何运作的;但是如果你要制作自己的搜索引擎,你可能会把它与流行的门户网站一起播种。 DMOZ.org 似乎是一个受欢迎的起点。由于大型玩家拥有的数据比我们多得多,他们可能会从各个地方开始爬行。

如果你问的是SE开始抓取你的特定网站的位置,那么它可能与你最喜欢哪个网页有很大关系。我想如果你有一个很多其他网站链接到的超级热门页面,那么这将是SEs开始进入的页面,因为其他网站有更多的入口点。

请注意,我不是SEO或任何东西;我刚刚为我正在研究的项目研究了bot和SE流量。


8
2017-09-03 11:07





您可以使用他们的网站将您的网站提交给搜索引擎 网站提交表格  - 这会让你进入他们的系统。当你实际上被抓获之后,这是不可能的 - 从经验来看,通常大约一周左右的时间进行初始抓取(主页,其他一些页面1 - 从那里深入链接)。您可以使用清晰的语义链接结构增加对页面的爬网和编制索引的数量并提交 网站地图  - 这些允许您列出所有页面,并相互重量,这有助于搜索引擎了解您查看网站的每个部分相对于其他部分的重要性。

如果您的网站是从其他已抓取的网站链接的,那么您的网站也会被抓取,从链接的网页开始,最终传播到您网站的其余部分。这可能需要很长时间,并且取决于链接网站的抓取频率,因此网址提交是让Google了解您的最快方式!

我不能高度推荐的一个工具是 Google网站管理员工具。它可以让你看到你被抓取的频率,googlebot偶然发现的任何错误(断开的链接等),还有许多其他有用的工具。


4
2017-09-03 10:55





原则上他们一无所获。只有当有人明确告诉他们要包含他们的网站时,他们才能开始抓取这个网站,并使用该网站上的链接进行更多搜索。

然而,在实践中,搜索引擎的创建者将放入他们可以想到的一些任意站点。例如,他们自己的博客或他们在书签中的网站。

理论上,人们也可以选择一些随机地址,看看那里是否有网站。我怀疑有人这样做;上面的方法可以正常工作,并且不需要额外的编码来引导搜索引擎。


2
2017-09-03 11:00