考这个新信息的含义。如果谷歌没有使用 Facebook 分享,那么高相关性一定可以用他们使用的东西来解释。我列出了谷歌可能用来确定相关性的不同因素,这些因素也与 Facebook 分享相关: 链接。Facebook 上分享频繁的页面往往也会有大量链接。 其他社交媒体信号。在 Facebook 上分享的页面也往往会被转发并通过 Google Buzz 分享。 优质内容。人们会分享他们认为有趣且内容优质的网页。这会带来可能有用的积极使用信号(网页停留时间、跳出率等)。 与知名优质品牌建立联系。与知名度较高的品牌相比,与知名度较低的品牌的互动可能更多,这可能会推动用户在 Facebook 上与这些品牌进行更深入的互动。
建立更好的 Facebook 股票模型 我回想起几个月前做过 贷款电话号码数据 的偏相关分析。当时,我主要对可以在几个小时内完成的初步了解感兴趣,因此我选择了使用 Linkscape 的一组有限的四个指标作为控制变量的偏相关分析。偏相关使用线性回归模型来预测相关变量(在本例中是 Facebook 分享和搜索位置),这是最简单的回归模型。它的优点是完善且易于使用,但当底层关系更复杂或非线性时,它就显得不足了。此外,由于当时我们对链接感兴趣,所以我没有尝试控制其他社交媒体信号。 我开始怀疑,如果我尝试使用 Twitter/Google Buzz 和 Linkscape 提供的所有链接指标来构建更复杂的模型,结果是否会改变,因此我开始构建模型。
在描述模型之前,写下我们的建模假设很重要。它们是: Google 使用链接指标进行排名,类似于我们的 Linkscape API 中提供的指标。 Google 使用其他社交媒体数据,特别是推文和 Google Buzz 分享来进行排名。 我们正在测试 Facebook 股票是否能除了这些因素之外提高预测能力。 为了建立模型,我选取了排名因素报告中使用的完整数据集的一个子集(经过数据质量筛选,但其他方面没有变化)。此数据中搜索排名和 Facebook 分享之间的基线平均 Spearman 相关性为 0.30。