问: 如何在站点地图中表示网址?
与所有XML文件一样,任何数据值(包括URL)都必须对以下字符使用 实体转义码:&符,单引号('),双引号(“),小于(<)和大于( >)。您还应确保所有URL都遵循URI 的 RFC-3986 标准,IRI 的RFC-3987标准以及XML标准。。如果您使用脚本来生成URL,则通常可以将URL作为该脚本的一部分进行转义。您仍然需要使实体逃脱它们。例如,以下python脚本实体转义了http://www.example.com/view?widget=3&count>2
$蟒蛇Python 2.2.2(#1,Feb 24 2003,19:13:11) >>>导入xml.sax.saxutils>>> xml.sax.saxutils.escape(“ http://www.example.com/view?widget=3&count>2”)
上面示例中的结果URL为:
http://www.example.com/view?widget=3&count>2
问: 我用来生成站点地图文件的哪种字符编码方法有关系吗?
是。您的站点地图文件必须使用UTF-8编码。
问: 如何指定时间?
对于此协议中的lastmod时间戳和所有其他日期和时间, 请使用W3C Datetime编码。例如2004-09-22T14:12:14 + 00:00。
这种编码使您可以省略ISO8601格式的时间部分。例如2004-09-22也有效。但是,如果您的网站经常更改,建议您将时间部分包括在内,以便搜寻器具有有关您的网站的更完整的信息。
问: 如何计算lastmod日期?
对于静态文件,这是实际的文件更新日期。您可以使用UNIX date命令获取此日期:
$ date --iso-8601 = seconds -u -r /home/foo/www/bar.php>> 2004-10-26T08:56:39 + 00:00
对于许多动态URL,您可以根据基础数据的更改时间或通过使用基于定期更新的近似值(如果适用)来轻松计算lastmod日期。甚至使用大概的日期或时间戳也可以帮助爬网程序避免对未更改的URL进行爬网。这将减少Web服务器的带宽和CPU要求。
问: 我应该在哪里放置我的站点地图?
强烈建议您将Sitemap放在HTML服务器的根目录下;也就是说,将其放在http://example.com/sitemap.xml。
在某些情况下,您可能想针对站点上的不同路径生成不同的站点地图-例如,如果组织中的安全权限划分了对不同目录的写访问权限。
我们假设如果您有权上传http://example.com/path/sitemap.xml,那么您也有权在http://example.com/path/下报告元数据。
站点地图中列出的所有URL必须与站点地图位于同一主机上。例如,如果站点地图位于http://www.example.com/sitemap.xml,则它不能包含来自http://subdomain.example.com的URL。如果站点地图位于http://www.example.com/myfolder/sitemap.xml,则不能包含来自http://www.example.com的URL。
回到顶部
问: 我的站点地图有多大?
站点地图不得大于50MB(52,428,800字节),并且最多可以包含50,000个URL。这些限制有助于确保Web服务器不会因提供非常大的文件而陷入困境。这意味着,如果您的站点包含超过50,000个URL,或者您的站点地图大于50MB,则必须创建多个站点地图文件并使用站点地图索引文件。即使您的网站很小,也应该使用Sitemap索引文件,但计划将其扩展到50,000个以上的URL或文件大小为50MB。Sitemap索引文件最多可以包含50,000个Sitemap,并且不得超过50MB(52,428,800字节)。您还可以使用gzip压缩站点地图。
问: 我的网站有数千万个URL。我可以以某种方式仅提交最近更改的那些吗?
您可以列出少量站点地图中经常更改的URL,然后在 站点地图索引文件中使用lastmod标记来识别那些站点地图文件。然后,搜索引擎可以仅对已更改的站点地图进行渐进爬网。
问: 创建站点地图后该怎么办?
创建Sitemap后,请直接向他们提交,对其进行ping操作或将Sitemap位置添加到robots.txt文件中,以 让搜索引擎知道它。
问: 站点地图中的网址是否需要完整指定?
是。您需要在URL中包含协议(例如,http)。如果您的Web服务器需要一个斜杠,则还需要在URL中包括一个斜杠。例如,http://www.example.com/是站点地图的有效URL,而www.example.com不是。
问: 我的站点同时具有URL的“ http”和“ https”版本。我需要同时列出两者吗?
否。请在您的站点地图中仅列出一个版本的URL。包括多个版本的URL可能会导致您的网站不完全爬网。
问: 我网站上的URL中包含会话ID。我需要删除它们吗?
是。在URL中包含会话ID可能会导致不完整和多余的网站爬网。
问: 网址在Sitemap中的位置是否会影响其使用?
否。URL在站点地图中的位置不太可能影响搜索引擎使用或查看URL的方式。
问: 我网站上的某些页面使用框架。我应该包括框架集URL还是框架内容的URL?
请同时包含两个网址。
问: 我可以压缩站点地图,还是必须将其压缩?
请使用gzip压缩您的站点地图。请记住,无论是否压缩,您的站点地图都不得大于50MB(52,428,800字节)。
问: XML Sitemap中的“优先级”提示会改变我的页面在搜索结果中的排名吗?
Sitemap中的“优先级”提示仅表示相对于您自己网站上其他URL的特定URL的重要性,并不意味着对搜索结果中页面的排名有任何影响。