正如我在开场白中所说,我们将研究自然语言处理以及我们如何利用它来更好地理解搜索引擎结果页面。现在,深圳logo设计公司可能没有计算机科学或 Python 或任何这些方面的背景,但它非常酷。我们将逐步引导您完成它。我们甚至有一个 Colab 文件,实际上,您只需添加关键字并按下几个按钮,就可以提取大量真正有意义的信息。在我们进入我们将在本视频中经历的实际工作之前,我真的想再次介绍一下。
我们为此制作了一个完整的视频,我将链接到有关实体的视频。但在本视频中,这正是深圳logo设计公司将使用 spaCy 的 NLP 模型提取的内容。一个实体,它是一个事物或一个概念。是单数。它是独一无二的。它定义明确,可区分。实体是谷歌在试图理解概念时所关注的。他们理解实体。实体已链接开放数据点。它们具有将它们连接到其他实体的节点。这就是谷歌从我们的文本中获取意义的方式。这就是他们理解我们文本的方式。现在,这是我们知识图谱的基础和构建块。一个知识图是一堆相互关联的实体。在 SEO 中,我们知道链接的力量。从我们网站之外的两个网站以及网站内部链接都非常重要。
通过提取这些实体,我们将更好地了解 Google 在呈现搜索结果时所关注的概念。深圳logo设计公司将浏览一个 Google Colab 文件,我将向您展示即使您不是程序员,也可以如何利用 Google Colab。我不是程序员,但我很擅长复制和粘贴以及在互联网上搜索以解决一些问题。通过许多不同的资源和联系,我已经能够在内部制作一些这些工具,这些工具确实给我们带来了优势,让我们能够看到搜索结果下面发生的事情。在我们开始之前,我想很快介绍一下。要了解有关实体的更多信息,请查看链接的视频。好的,现在我们在 Google Colab 中。现在,深圳logo设计公司是一个工作区,您可以利用它来构建软件或构建工具。
在这种情况下,我们将利用 Python。现在,如果您没有 Python 背景,那完全没问题。我将授予您访问此 Colab 文件的权限,您可以复制该文件并在自己的 Google Colab 文件中使用该文件。这样做是完全免费的。Python 是一种编程语言。如果您构建了网站或者您在那个世界做过任何事情,那么您可能会掌握 Python。我还在学习Python。无论如何,我不是编码员。我什至不自称是其中之一。我擅长复制和粘贴,就像我之前说的。深圳logo设计公司将在这个 Colab 文件中做几件事。我们将首先从 Google 获取结果,然后我们将抓取结果,获取所有数据,实际上是顶部结果中的内容。
从前五页中提取实体
完成后,我们将进入更进一步的 NLP,我们将从前五页中提取实体,并将该结果可视化。然后从那里,我们可以使用这些数据来帮助我们告知我们的内容,以及其他类似的事情。为了让每个人都更容易做到这一点,我将继续在这里放大一点。那可能有点太远了。我们需要做的第一件事就是运行这些单元格。您不必担心这里的任何代码。如果您了解 Python,并且想操作它,请继续。但实际上,我们只需点击这些播放图标上的播放即可开始。
它将安装必要的库并倾注我们实现这一目标所需的所有工具。我们将通过这些。就在这里,我们只是安装了 Google 和 Trafilatura,它可以帮助我们进行抓取,而 Google 可以帮助我们获取信息。然后我们在这里有了一些非常标准的 Python 导入,包括 Pandas、NumPy、漂亮的打印等等。接下来,我们将安装将完成大部分工作的东西,这些是变压器。转换器使我们能够进行 SERP 分析、总结 SERP、进行问答、从网络中提取内容。这就是 深圳logo设计公司和 Transformer 的强大之处。同样,您不需要对此了解很多,但这就是这些事情的作用。现在,我们有一些关于查询之类的事情。这将拉取查询。它会看看我们想要带来什么样的结果。
这里有更多的输入,如果您有兴趣,可以阅读所有文档,但我们使这变得非常简单。真的,你只需要到这一边并输入你的查询。例如,我们可以在这里放任何我们想要的东西,让我们为了这个的乐趣,我们只放语义 SCL。完成此操作后,现在您可以运行此查询。现在这已经出来了,深圳logo设计公司正在从谷歌获取前 10 名的结果。他们来了。这是来自 Google 的前 10 个结果。很容易,对吧?现在,我们必须刮取结果。现在,Trafilatura,就像我说的,它会进入上面的这些页面,它会为我们抓取所有内容并将其打包成一个巨大的文本语料库。
要手动执行此操作,将花费大量时间。幸运的是,由于计算机科学、Python、诸如此类的代码、人们构建的这些包,您可以相对较快地完成此操作。按下按钮,我们就可以开始比赛了。现在这将需要一些时间,显然,因为它会出去,它会爬取所有这些网站,提取所有文本,然后就可以了。它已经提取了 10 篇文章,我们很高兴。