Google Gemini 聊天页面似乎已泄露到互联网上,但事实却令人大开眼界
罗杰·蒙蒂
SEJ 员工
罗杰·蒙蒂
2024 年 2 月 13 日
⋅
阅读时间:5 分钟
68
分享
3.9千
阅读
Google Gemini 为何“泄露”聊天数据?
谷歌 Gemini 公开发布后仅 24 小时,就有人注意到聊天记录被 哈萨克斯坦whatsapp号码数据5万 公开显示在谷歌搜索结果中。谷歌迅速对疑似泄密事件作出了回应。此事发生的原因相当令人惊讶,而且并不像乍一看那么险恶。
@shemiadhikarath发推文:
“@Google Gemini 推出几个小时后,Bing 等搜索引擎已将 Gemini 的公开对话纳入索引。”
他们发布了 gemini.google.com/share/ 网站搜索的截图
但是如果你看一下截图,你会看到一条消息:“我们想在这里向您显示一个描述,但该网站不允许我们这样做。”
到 2 月 13 日星期二凌晨,Google Gemini 聊天记录开始从 Google 搜索结果中消失,Google 搜索结果中只显示三条。到下午,搜索结果中显示的泄露 Gemini 聊天记录数量已减少到只有一条。
Google 对 Google Gemini 聊天子域名索引页面的搜索结果截图
Gemini 聊天页面是如何创建的?
Gemini 提供了一种创建私人聊天公开可见版本链接的方法。
Google 不会自动创建私人聊天网页。用户通过每个聊天底部的链接创建聊天页面。
切换到 Bluehost 并取回钱
切换到 Bluehost 确实物有所值。在一个平台上即可获得超快的托管、电子商务功能和 WordPress 专业知识。
广告
如何创建共享聊天页面的屏幕截图
如何创建私人 Google Gemini Chat 的公开网页的屏幕截图
为什么 Gemini 聊天页面会被编入索引?
聊天页面被抓取和索引的明显原因是因为 Google 忘记在 Gemini 子域名 (gemini.google.com) 的根目录中放置 robots.txt。
robots.txt 文件是用于控制网站上的爬虫活动的文档。发布者可以使用 Robots.txt 协议中标准化的命令来阻止特定的爬虫。
我于 2 月 13 日凌晨 4:19 检查了 robots.txt,发现其中有一条:
Google Gemini robots.txt 文件
接下来,我查看了互联网档案,查看 robots.txt 文件存在的时间,发现它至少从 2 月 8 日(即 Gemini 应用程序发布的那一天)就存在了。
截图来自互联网档案
来自互联网档案馆的 Google Gemini robots.txt 截图显示它于 2024 年 2 月 8 日出现在那里。
这意味着聊天页面被抓取的明显原因不是正确的原因,而只是最明显的原因。
尽管 Google Gemini 子域名有一个 robots.txt 文件,可以阻止 Bing 和 Google 的网络爬虫,但它们最终是如何抓取这些页面并对其进行索引的呢?
阅读: 6 个常见的 Robots.txt 问题及其解决方法
发现和索引私人聊天页面的两种方式
某处可能有一个公共链接。
虽然可能性不大,但或许有可能,它们是通过 cookie 链接的浏览历史记录发现的。
更有可能存在公共链接。
我向 Bill Hartzer ( @bhartzer ) 询问了这个问题,他发现了其中一个索引页面的公共链接:
Google Gemini 共享聊天页面的公开链接
所以现在我们知道,很有可能是一个公共链接导致这些 Gemini Chat 页面被抓取和索引。
Bill Hartzer 提出了这样的观察:
“尽管 Gemini URL 在 robots.txt 文件中被阻止,但博客评论中存在指向 Gemini URL 的链接,因此该 Gemini URL 会被编入索引。
这只是表明 Google 仍会索引 robots.txt 文件中阻止抓取的 URL。
如果 Google 真的想确保 Gemini URL 不被索引,他们会在 robots.txt 文件中允许抓取并在页面上添加 noindex 元标记。也许 Google 应该在这里遵循自己的建议?”
为什么聊天页面开始从搜索结果中消失?
但是,如果存在公开链接,那么为什么 Google 会开始彻底放弃聊天页面呢?Google 是否为搜索爬虫创建了内部规则,以便将 /share/ 文件夹中的网页从搜索索引中排除,即使它们是公开链接的?
深入了解 Bing 和 Google 搜索如何索引内容
现在,对于所有关注 Google 和 Bing 如何索引内容的搜索极客来说,这是真正有趣的部分。
微软必应搜索索引对 Gemini 内容的响应与谷歌搜索不同。2 月 13 日凌晨,谷歌仍显示三个搜索结果,而必应只显示一个来自子域的结果。索引的内容和数量似乎是随机的。
双子座聊天页面为何泄露?