首页 城市分站

河源口碑营销有哪些方式_SEO技术基础_搜索引擎优化原理

2021-06-16 本文已影响 684人  未知
河源专业seo优化河源专业网站优化。

河源网站推广设计制作

河源美团代运营托管可靠吗。河源竞价代运营外包收费标准。河源竞价账户代运营。河源网络营销的十种方法。河源seo服务。

河源搜索竞价托管

河源推广怎么制作网页

河源信息流广告代运营哪家正规。河源网络竞价是什么工作。河源事件营销。

河源sem代运营推广公司

河源说说seo论坛

河源软文推广营销


释放双眼带上耳机听听看
SEO技术基础SEO是一种低成本或零成本的营销方式但有别于其他营销方式要做好SEO需要了解和熟悉其技术知识本章从搜索引擎原理站内优化站外优化和防止作弊4个维度介绍SEO技术的基础知识
掌握基础知识对SEO思维的深度理解及SEO的实践会有很大帮助
1搜索引擎原理
搜索引擎作为互联网的基础应用在掌握SEO这门技术前要先了解搜索引擎的原理
搜索引擎的工作过程基本上可分成3个阶段首先进行爬行抓取然后进行数据预处理包括提取文字中文分词等最后给予排名输出
2爬行抓取
爬行抓取是搜索引擎工作最重要的一步指将所有需要抓取的内容抓取回来因此如果在抓取这步出错了后面就完全瘫痪了
当使用搜索引擎进行搜索时会立刻出现数以万计的网页信息这个过程是以秒来计算时间的如果搜索引擎在1秒内将所查询的关键词从数以万亿的互联网信息中心中逐一抓取一遍是无法实现的即使效率再高的服务器也难以支撑这样的信息输入输出逻辑
3信息收集
平时上网的时候打开一个网页的时间是1秒内这仅是打开一个网页的时间搜索引擎在以秒计算时间的情况下不可能将互联网上的信息都抓取一遍这不仅耗时费用也高因此搜索引擎较好的方法是提前处理所抓取的网页从根本上解决这个问题
信息搜集工作是要按照一定规律来进行的有如下两个特征
批量收集对互联网上只要存在链接的网页都收集遍耗时需要几个星期缺点是增加了额外的带宽消耗时效性也不高
增量收集批量收集的一个技术升级完美地弥补了批量收集的缺点在原有的基础上搜集新增加的网页变更上次收集之后有改变的页面删除收集重复和不存在的网页
还有一种比较简单的方法可以使搜索引擎爬行即网站主动向搜索引擎提交网站到一定的时间会自动进行爬取现在网站主动提交后搜索引擎再来爬行的速度越来越慢了最理想的办法是顺着自然链接收集所以网站结构简单清晰是非常重要的
4蜘蛛的特点
搜索引擎用来爬行网站的程序称为蜘蛛每个搜索引擎的蜘蛛都有一些差异化的特点具体如下
1百度蜘蛛
百度蜘蛛根据服务器的负载能力调节访问密度大大降低服务器的服务压力
2谷歌蜘蛛
谷歌蜘蛛属于比较活跃的网站扫描工具其间隔28天左右就派出蜘蛛搜索有更新或有修改的网页与百度蜘蛛最大的不同是谷歌蜘蛛的爬取深度要比百度蜘蛛深得多
3搜狗蜘蛛
搜狗蜘蛛的爬取速度比较快但抓取的数量较少对于其他搜索引擎的蜘蛛本书不再赘述蜘蛛主要通过爬取页面上的链接来发现新的页面以此类推不停地十字交叉爬行便形成一张蜘蛛网
5爬行的策略
爬行主要按两种策略执行一是深度优先爬行二是广度优先爬行
1深度优先爬行
如下图所示

网络爬虫爬行顺序
蜘蛛从A页面顺序爬行到A1A2A3A4页面爬行到A4页面后发现没有页面了于是返回A页面以此类推再爬行到B1B2B3B4页面深度优先爬行的主要特点是蜘蛛会沿着一条线直抓取下去直到最后然后返回再开始另一条线
2广度优先爬行
广度优先爬行是指蜘蛛在一个页面上发现多个链接时首先将所有第一层的链接抓取遍然后沿着第二层链接向第三层链接爬行
如图下所示

爬虫的广度爬行顺序
归根到底只要给蜘蛛足够的时间无论广度优先爬行还是深度优先爬行都能爬完整个网站SEO的一个基本原则是要给蜘蛛节省宽带和资源毕竟蜘蛛的资源不是无限的也有满负载的时候
SEO人员要做的工作之一就是为蜘蛛指明一条正确的路径尽量减少蜘蛛的工作强度
另外还需注意尽量避免蜘蛛重复爬行数据造成重复收集的原因是蜘蛛并没有记录访问过的页面URL或者一个页面有多个URL指向它
针对这个情况搜索引擎增加了一个额外的技术分别定义两个不同类型的表即已访问表和未访问表依靠此技术就可以简单地解决重复收集的难题在蜘蛛抓取到一个链接后从这两个表中可以判断此链接是否已经被访问过如果没有被访问过抓取回来就添加到未访问表中
如下图所示

爬虫的URL指向
蜘蛛从开始爬行到网页D网页C或网页F顺着链接爬行到网页G和网页A蜘蛛都会调用两表中的数据以此来判断爬取网页的重复度
6网页信息的重要性
由于互联网的信息实在太多太杂随着时间的积累不可能将所有的信息都收集起来所以要尽可能地让蜘蛛收集重要的网页网页信息的重要性是根据信息价值本身来决定的因此收集的方式也可以采用不同的策略
对网页重要程度的判断也有一些方法可循对于整个网站页面的质量权重度而言并非网站首页权重越高越好需要结合全局分配权重
可从以下3点判断一个网页的重要程度
高质量相关链接导入从外部导入与自身相关度大的链接可以增加网页权重
信息的新鲜度一个高质量的网站每天都会更新用户天天浏览蜘蛛也会天天来光顾
网页内容的原创性原创内容越多的网页重要性越高原创内容意味着信息的稀缺性稀缺性对搜索引擎来说意味着有较大价值
7数据预处理
通过前面的爬行抓取流程已经把想要的网页全都抓取回来了下面需要对信息进行分析索引其中包括了多个处理流程与爬行抓取一样数据预处理也是在后台系统中提前完成的
1关键词提取
搜索引擎完全能识别的依旧是以文字内容为主的信息蜘蛛在爬行一个页面时先将HTML网页抓取下来删除对排名没有意义的标签和代码如JavaScriptCSSdiv标签等只保留文本信息
2删除停用词
同一个词可能在个网页中出现多次如得的地啊阿呀却再从而之类的无用词反复出现没有价值这类词称为停用词也需要删除
3分词技术
分词是中文搜索引擎特有的技术中文信息和英文信息的差别在于英文单词与单词之间使用空格分隔但这对中文行不通搜索引擎必须将整个中文句子切割成多个小单元词如SEO是网络营销必备的流量增长策略拆分出来的形态是SEO是网络营销必备的流量增长策略分词技术的效率直接影响整个系统的效率分词的方法有两种基于字符串匹配的分词方法和基于统计的分词方法
4基于字符串匹配的分词方法
按匹配方向的不同可分为正向匹配逆向匹配和最少切词这三种方法可以混合使用即正向最大匹配逆向最大匹配正向最小匹配和逆向最小匹配
正向最大匹配
假设字典中最长的词语字数为m先根据标点符号及特征词将句子切分为短语取短语的前m个字在字典中查找是否存在这个词如果存在就输出这个词并以短语中删除这个词如果不存在就删除这m个字的最后一个字然后检查剩下的是否为单字若是则输出此字并将此字从短语中删除若否则继续判断字典中是否存在这个词如此反复循环直到输出一个词此后继续取剩余短语的前m个字反复循环这样就可以将一个短语分成词语的组合了
小例子
我是一个美人
以我是一个美人为例假设字典中最长词语字数为3正向最大匹配顺序如下
取出短语我是一检查我是一是否在字典中存在或为一个单字处理方法是删除最后面的一字
检查短语我是是否在字典中存在或为一个单字处理方法是删除是字
检查我字是否在字典中存在或为一个单字我是一个单字将我字输出
继续取出短语是一个检查是一个是否在字典中存在或为一个单字处理方法是删除最后面的个字
检查短语是一是否在字典中存在或为个单字处理方法是删除一字
检查是字是否在字典中存在或为一个单字是是一个单字将是字输出
取出短语一个美检查一个美是否在字典中存在或为一个单字处理方法是删除最后面的美字
检查短语一个发现是字典中的一个词直接输出
检查短语美人发现是字典中的一个词直接输出
最后输出结果为我是一个美人
逆向最大匹配
逆向最大匹配是从句子结尾处进行分词的方法逆向最大匹配技术最大的一个作用是消歧例如吕令建周末去了汤河口镇钓鱼按照正向最大匹配结果为吕冷建去了汤河口镇钓鱼显然产生了歧义汤河口镇是一个地名没有被正确地切分采用逆向最大匹配的技术可以修正这个错误
正向最小匹配逆向最小匹配
这两种方式一般很少使用但在实际使用中逆向匹配的精准度要
高于正向匹配
8基于统计的分词方法
基于统计的分词方法直接调用分词字典中的若干词进行匹配同时使用统计技术识别新的词语将所有的统计结果匹配起来发挥切词的最高效率
分词字典基本上收录了汉语字典当中所有的词语是搜索引擎判断词语的依据
例如在搜索引擎中输入我要减肥了减肥两字就会被判定为一个词语
现在网络上经常会出现一些新造的网络流行词语如神马犀利哥等这样的词都会慢慢地被收录
分词字典只有不断更新才能满足日常搜索判断的需求
9消除噪声
网页上有形形色色的广告文字广告图像登录框版权等信息为了某些目的不得不放上去这些对搜索引擎来说是无用的信息可以直接删除对搜索引擎而言属于噪声元素
10分析网页建立倒排文件
1正向索引
经过前面几个步骤后就可以开始提取关键词了将页面转换为一个关键词组合同时记录每个关键词在页面上的出现频率格式和位置这样每个页面都可以记录为一串关键词组合其中每个关键词的出现频率格式和位置等权重信息也都记录在案简化的索引词表结构如下图所示

简单索引词表
2倒排索引正向索引不能直接用于排名
例如用户搜索关键词3如果只正向索引排名程序需要扫描所有索引中的文件找出包含关键词3的文件再进行相关计算这样做计算无法实时返回排名结果因此搜索引擎会将正向索引数据库重新构造为倒排索引倒排索引以关键词为索引词表结构如下图所示

倒序索引
10链接关系计算
链接关系计算是数据预处理中重要的一步主流的搜索引擎排名因素包含网页之间的链接流信息事先必须计算页面上有哪些链接指向哪些其他页面每个页面有哪些导入链接使用了如锚文本等何种链接方式谷歌PR是这种链接关系计算的重要代表之一
11特殊文件处理
搜索引擎可以抓取和索引以文字为基础的多种文件类型而特殊文件包括动画视频PPT表格图像等非文字内容
搜索引擎不能执行脚本和抓取程序因为搜索引擎目前还无法获取特殊文件中的文字信息对图像来说一般推荐使用alt标签向搜索引擎传达图像信息
12给予排名
经过前面的爬行抓取和数据预处理后搜索引擎已经存储了较为丰富的数据而且已经记录了重要关键词的集合即正向索引和倒排索引中的关键词集合为每个关键词赋予特殊的编码形成了一个倒排文件输入一个关键词可以马上从相关文档编号中找到所需的信息
用户输入某个关键词如减肥查找的出发点还是比较模糊的究竟是寻找减肥方法还是减肥教练这些信息并不明确但这是大部分用户的一个习惯搜索引擎的处理方法是尽量将出现减肥二字的词都调用出来可能多达几百页排名靠前的网页用户点击越多
搜索引擎为了提升用户体验其结果的展示形式不断演变从以前单一的列表式演变出图文式全站链接式卡片式及知识图谱式等SEO的工作内容除了创造具有吸引力的标题还需要提供精美的图像为多样的展示形式提供条件下图所示为不同样式的效果
以上是SEO技术基础的三分之一内容下期接着介绍
(河源网站制作工作室)。(河源网络竞价是什么意思)。(河源网络竞价是什么工作)。(河源网站seo诊断)。(河源新闻软文营销)。(河源口碑营销怎么写)。(河源新闻软文范例)。(河源sem竞价推广托管)。(河源如何做网站推广)。(河源网站推广的主要方法)。

标签: (a)网站快速优化排名官网 (a)seo优化托管 (a)服务企业的口碑营销方案 (a)品牌关键词优化 (a)seo是什么意思

下一篇 上一篇

猜你喜欢

热点阅读