不知道说啥,没意思

正则表达式学习
我想要一个页面的汉字,比如上图,页面里面不能复制,直接在源码复制,复制下来如下图.

正则表达式学习

需要删除前后a标签,后面的a标签好删除,直接在notepad++中替换后面的a标签为空,但是前面a标签有个变量,这时就不能直接替换了,用正则表达式比较方便,但是不会正则.用火车头采集器的替换标签也能实现,但是闲的蛋疼就顺便学习下正则表达式,直接在notepad++中写正则呗,我不会,百度搜了下发现一个比较有营养的博客,讲的很细,链接:http://www.crifan.com/files/doc/docbook/rec_soft_npp/release/htmls/npp_func_regex_replace.html

正则表达式学习 正则表达式学习

直接输入查找目标,将vishow后面的数字替换为(\w+),即<a href=”/shop/vishow/(\w+)”>,然后查找模式勾选正则表达式,然后全部替换,ok.前面的a标签就没有了.同样用<a href=”/shop/vishow/([0-9]+)”> 也可以替换.毕竟变量位置是数字类型.
\w表示字符类(包括大小写字母,数字)
\w+表示一个或多个\w,最少一个

那么我没事干直接从头学学正则表达式,我才不,只有遇到问题直接在百度搜下直接找解决办法才能记得牢吧,我现在用不用,我学它干嘛?是不是太懒了.面对y不知道说啥,哎!

看百度官方解答:哪些行为会降权?

最近在百度站长平台公众号看到的信息,我们看看百度官方的回答:哪些行为会降权?
1.网站被镜像是否会引起百度判罚?
不会百度有策略识别并判罚镜像站,建议站长使用官网保护工具。
2.别人给我做,大量垃圾外链&黑脸是否会引起百度判罚?
百度会自动过滤垃圾外链&黑链,一般不会影响.
3.别人大量采集我的网站,是否会引起百度判罚我的网站?
不会,可使用链接提交工具第一时间提交数据,便于百度更快识别原创内容
4.别人攻击我的网站是否会引起百度判罚?
如果造成无法访问等影响用户的情况,会影响到在百度的展现
安装360统计,投放360联盟广告是否会被降权?
百度对第三方插件均一视同仁,如广告触发冰桶算法4.0,则会受到百度判罚
5.url中带中文对搜索引擎有利还是有弊?
有利有弊大多数场景下,百度可识别中文,在个别情况下会影响判断,比如在robots会有影响
6.一个网站不小心把网站里面内容误删了,是否会被降权?
如果影响到搜索用户,百度会视情况处理
7.别人恶意,刷我网站的流量是否会引起百度判罚?
百度会自动过滤垃圾流量,如引起无法访问等情况会有影响
8.网站上有很多404会影响总战排名吗?
会需要站点,在站长平台提交死链
9.百度统计跳出率高是否会被降权?
跳出率高会对评分有影响
网站加入过多的nofollow标签会不会有影响?
没影响

发外链避免发重复

虽然说外链现在不重要,但是相信大多seoer还是会发外链的,发外链如果发的是自身站内的文章,一般都会是收录的文章才会发外链,假设我今天发10篇文章外链,那么是不是我先要找十篇收录的文章,那么如何才能快速找出这10篇收录的文章且第二天发的外链文章不重复呢?
说说本人的手法,直接用火车头采集器采集要发的文章栏目对应文章的所有url,然后查询哪些url收录了,然后导出收录了的url到excel,假设有1000个,然后我每天发10个外链,将发布了外链的这些url在excel标注,第二天发的时候就会知道哪些url是发过外链的,避免发重复.
火车采集url不多说,比较简单.如果要查询url哪些收录了,手动不现实,可以用python批量查询哪些url收录了.不会的可以看这篇文章:用python批量查询百度收录率
如果网站采集的url外链发完了,那么我下一次采集的收录url已经包含了已经发过的url,这时怎么办?
直接将新采集的url表格和以前采集的url表格用excel求补集,补集的数据就是未发且收录的url.
excel求补集方法
问题:
有两列数据,第一列数据为0到1000以内的一部分数,另一列数据为0到1000的所有数,现求两列数的补集列成一表
答案:
设第一列为Sheet1的A列,
另一列为Sheet2的A列
在Sheet2的B列输入
=VLOOKUP(A1,Sheet1!A:A,1,FALSE)
向下复制公式
显示为#N/A的是Sheet1中没有的数据,
用自动筛选筛出#N/A的行复制到新表即可.

分析网站日志发现许多404链接

分析公司网站的日志,发现日志文件404错误有3372条.下面说下分析过程.
我用的是金花站长工具数据分析.支持10G的日志分析,感觉还可以.
如图所示,
分析网站日志发现许多404链接
点开发现404错误集中/%2527… 点击对应链接发现的确是404,网站现在的url根本没有这些东东,网站前一阵改版了url,这些非常可能是改版之前的垃圾链接.访问ip不是搜索引擎蜘蛛.

分析网站日志发现许多404链接

其他的404错误散落在网站服务器根目录的/ACT,/ARTICLE,/Admin,/Pic,/Images等目录下,如下图所示:

分析网站日志发现许多404链接

由于公司给我的ftp权限看不到服务器根目录的这些文件夹,我只有该站的文件夹权限,但是该站的所有相关文件如js,css,图片等文件都存在我对应ftp权限中,所以推断这些文件跟公司网站没有关系.我只要在robots文件屏蔽这些目录即可,但是这样处理对应目录太多. 我点击各个搜索引擎蜘蛛(百度,google,360,sougou,bing)的访问记录,发现蜘蛛爬行的404只集中在服务器根目录的/upload/,/ueditor/,下图是百度蜘蛛爬行的404链接.基本都是图片蜘蛛抓取404.
分析网站日志发现许多404链接
然后分析其他栏目发现404链接都不是搜索引擎的蜘蛛,能访问那些页面的也不会是真正的访客,所以就不需要robots屏蔽所有目录,我只屏蔽搜索引擎抓取的目录即可.

恒创主机最近被攻击

网站二十三号直接打不开,发现服务器ftp登录不了,然后问了恒创客服,原来恒创自己家的服务器被ddos攻击导致恒创数千个ip网站打不开,在恒创官网就算你登录,但是网站进不去网站管理,无法搬家,本人是个小博客可能无所谓,但是如果是商业网站一星期打不开损失应该会非常大.直到今天30号才正常,呵呵!
下面说下百度的反应:
23号网站打不开,
24号直接百度索引都清零了,site不出任何数据了,我在百度站长平台申请了闭站保护.
29号关闭闭站保护,
30号早上一看,索引已恢复,site网站数据也都出来了,再到5118看网站数据,发现大多关键词排名也恢复了.
刚才在百度搜索恒创科技,发现排前面的不是恒创官网,而是恒创的负面消息,,这些肯定是此次事件的受害者,信息是主机评论的,全是最近几天的评论,恒创被骂残了.

wordpress正在等待fonts.useso.com的相应

博客昨天打开速度慢出翔,浏览器底部 正在等待fonts.useso.com的相应,fonts.useso.com是wordpress4.6版本之前360提供的字体服务用来代替Google的fonts.googleapis.com ,因为Google被墙,wordpress使用了Google的字体,所以会慢,正好360推出fonts.useo.com代替fonts.googleapis.com.
本屌用ftp连接服务器,服务器是正常的,心里感觉是加载fonts.useso.com的问题.
到wordpress吧问别人说升级4.6就ok,因为wordpress4.6直接使用系统原生字体,不再使用Google的字体,会让wordpress变得更快!
我的博客之前搬过家,wordpress版本是4.2,升级时会发生wordpress需要升级数据库的提示,而且网上的各种删除缓存方法对我没用,本人还是试了下,果然又要升级数据库,这样只能回滚到4.2版本,但是回滚到4.2又要用Google字体,网站打开速度就会慢出翔,这真是前后为难!
当然最后还是找到了我觉得还行的解决办法:
直接先在网站后台 工具导出 所有数据,(导出时需要安装wordpress导入工具插件,你点导出数据时选择下面那个wordpress即可)得到一个xml文件.然后在服务器上删除原来的文件和数据库重新安装wordpress4.6,安装完将数据再导入,接着将博客的主题换成不加载Google字体的主题,如果本来就没加载Google字体就不需要了换主题喽,比如:fonts.googleapis.com或者fonts.useso.com.这两种都不行.难道是360看到wordpress4.6采用原生字体了,然后就怠慢了,呵呵!
wordpress正在等待fonts.useso.com的相应
弄完网站就复活了,许多人说的安装屏蔽Google字体的插件,本人试了是不行的.但是发现网站的图片不显示了,因为我的博客图片是放到七牛的,接着安装wordpress七牛插件设置好,图片又正常显示了!
这里需要注意的是导出的数据导入时如果大于64M就不行了,这时候需要一个WordPressXML分割器来将导出的xml文件切分为多个文件,然后分次导入即可!
WordPressXML分割器下载链接:http://pan.baidu.com/s/1mi8Rahq
导入的数据比如评论啥的都在,呵呵!就是没见缩略图,但是我已经很开心了!弄完主题直接用默认的2016主题了,插件安得也不多,感觉速度提升不少!

老域名建站哪家强?

号外:上篇文章提到的百度右侧“相关XX”是根据百科词条标签来进行匹配的。有同学反馈,15年开始词条标签已经不对外自定义标注了。目前可能是百度提供定义,内部人员通过一个活动页面进行人工选定匹配。

老域名建站哪家强?
——————————————————————————–

回归本期正题。

做新站首选老域名,据说是因为新域名在百度的审核期太长,收录都得等很长时间,至于360、搜狗等其他搜索引擎,要不主动push,没准它都找不到这个站。

此说法对不对不清楚,作为一个渣渣,还没有多少拿新域名做过流量站的经历,所以也无法亲自验证,但是从主观感觉上,我觉得挺有可能的~~

之前通过多种指标的筛选,过滤出几百个老域名用来做站,多数以站群和小偷为主。无论站群还是小偷,都是批量上站,所以在页面质量上都是相同的。

起来的流量,也符合2/8原则:80%的流量都集中在20%的域名上,另外80%的域名只产生20%流量。

那么,既然都是通过相同的指标筛选出来的域名,那流量占大头的个别域名,跟大多数没产生多少流量的域名,到底有哪些不一样?

还好当时筛选域名的时候,跑出来的数据都是直接写到mysql的,所以每个指标的绝对值都是有所保留的,正好可以对比这两批域名。

从统计工具里拿了这批域名,流量大头的域名就那么20来个,将部分指标的绝对值拿出来

老域名建站哪家强?
数据怎么来的

UV:就是流量啦,不过是月UV。表里看着挺多,其实平均到每天日UV没多少,毕竟这批站好几个月没管了,要管了还哪有时间去骑川藏线呢

XX收录:是指在搜索引擎中的历史平均收录,不是在搜索框中site一下出来的数据。因为绝大部分老域名索引都被清了,只能看历史数据

建站时间:就是建站时间嘛,以天为单位

ICP备案:就是该域名是否备案

爱站反链:顾名思义…

计算出这两批域名每个指标的平均值:

老域名建站哪家强?
1)老域名是否备案,对是否产生流量没有影响
2)老域名历史建站时间越长,产生流量的概率越大
3)老域名在搜索引擎中历史收录越高,产生流量的概率越大

不过有些域名的历史收录是有虚高的,有那么一两个域名做过镜像、泛解析的,历史收录中某个时间段绝对值巨高,所以拔高了整体的平均值

所以挑选老域名建站,可以优先选择历史收录高、建站时间长的域名

PS:这篇文章写得太简陋,没办法,要写的不简陋,会让一些人不高兴

——————————————————————————–

gogo闯 公众号

老域名建站哪家强?

 

关于百度右侧‘相关XX’推荐规则的研究 -by gogo闯

当搜索某些query,百度右侧会出现“相关网站”、“相关企业”、“相关人物”之类的推荐搜索,曾经好多人问过我:“为啥某某网站没有出现在右侧相关XX里”。

比如有一个虽然上线时间不长,但是很牛逼的、指数2000多的,一个叫“看准网”的招聘网站。

我一直很纳闷,当在百度搜索“招聘”相关的query,为啥右侧“相关网站”总不出现“看准网”?

第二个问题是很多不知名、指数没“看准网”高、甚至指数都没有的网站也会出现在“相关网站”中,为啥指数、流量都比这些网站高的“看准网”却没出现?

关于百度右侧‘相关XX’推荐规则的研究

今天碰巧又有人问类似问题,就花点时间研究了下。

最客观的了解百度规则,无疑是去查询百度专利,无奈百度发表专利太多,经过一段时间搜索,最后把query锁定在“知识图谱 搜索推荐”,总算能找到沾点边的内容(网上找资料,也需要业内基本知识的积累,要不然都不知道搜什么)

关于百度右侧‘相关XX’推荐规则的研究
按照专利“背景技术”介绍 [0002] 中的描述,百度右侧“相关XX”卡片中出现的词是通过数据挖掘,计算出与当前query相关联的实体推荐给用户,从而来激发用户潜在的搜索需求,顺便增加百度的二跳。

所以右侧卡片,是基于知识图谱的推荐,而非人工干预,所以花钱买的说法似乎是扯淡的。但也不排除少量百度内部人工干预的可能,比如很多query,不算太相关的“糯米网”都会出现在相关推荐的卡片中,而且是第一位。

[0003]中介绍,当推荐的实体是众所周知的,点击率反而却不高。所以从这点可以解释,为啥搜索很多query,右侧推荐的词,有挺大比例都是知名度不高的。

那么另一个问题,百度通过什么来推荐这些词?后来通过有着非人类洞察力、一个牛逼的SEO服务商、SEO前线的ZERO大神提醒,发现了其中的奥妙,虽然不一定准确,但通过大量观察,至少在逻辑上是说得通的解释。

首先之前知道,这些相关推荐主要挖掘的渠道是百度百科,而推荐卡片的标题“相关XX”中的“XX”是对应的分类,如“相关网站”中的“网站”,“相关人物”中的“人物”,“相关企业”中的“企业”……这些都是分类。

一个实体属于哪个分类,可能会参考百度百科的“词条标签”,比如下图的“相关网站”中的实体。

关于百度右侧‘相关XX’推荐规则的研究

首先这些实体,大部分都得有百度词条,另外百科的标签,必须包含“网站”,如下图:

大街网:

关于百度右侧‘相关XX’推荐规则的研究

58同城:

关于百度右侧‘相关XX’推荐规则的研究

南方人才网:

关于百度右侧‘相关XX’推荐规则的研究

云南招聘网:

关于百度右侧‘相关XX’推荐规则的研究

……

而“看准网”的百科词条……

关于百度右侧‘相关XX’推荐规则的研究

所以,如果“看准网”想出现在右侧“相关网站”卡片中,需要更改百科中的词条标签,添加“网站”,如果想要在其他关于百度右侧‘相关XX’推荐规则的研究“相关XX”中出现,则在词条标签中追加“XX”

再多举几个例子,搜索 “华为科技有限公司”,右侧出现的“相关企业”,他们的词条标签都包含“企业”或者“公司”

 

移动端的推荐卡片大部分也是此类情况。

个人觉得这个是目前逻辑上和实际观察中最说的通的解释,虽然也看见过词条标签没有“网站”,却在“相关网站”中出现的case,但观察了至少50个query,只发现一例。

绝对真实不坑爹,免费获得金花站长工具VIP

经本人测试活动是真实的,不废话,看图!vip一年的费用是359/年!这个活动确实给力不坑爹,广大站长赶紧抓住机会吧!
  免费获得金花站长工具vip
免费获得金花站长工具vip
活动详情:
2016年8月15号-2016年9月1号,只要在编写一篇关于如何使用金花站长工具进行日常SEO工作的文章,并发布到各大SEO平台即可免费升级VIP
文章要求:
1、原创500字以上。
2、至少有一个金花站长工具截图
3、发布到SEO相关的网站或者群,或者朋友圈,或者微博
4、不得在文章中提及赠送VIP等类似事宜。
奖励规则:
1、至少赠送3个月VIP
2、发布越多平台赠送时间越长,每增加一个平台或者渠道多赠送1个月VIP,(最长一年)
3、请把截图或者URL地址发送到邮箱abc195@qq.com,并在其中附上你的账户名即可参与活动。
4、个别文章质量太差的朋友,可能会根据实际情况调整赠送时间,请各位尽量用心编写
欢迎各位朋友及时参与,过期不再。

利用金花站长工具分析网站

金花站长工具在seo行业也算是知名的seo工具了,下面讲下我在日常seo工作中使用到金花站长工具的情况!
批量查询网站关键词排名
金花站长工具分析网站
我们只要输入域名然后再到底部输入需要查询的关键词,然后点击底部的开始查询,就能够查询到网站关键词在各大搜索引擎的排名了.具体还能够观察到关键词的相关指数和平均指数!
挖掘长尾关键词
我们也可以利用金花站长工具挖掘长尾关键词,由于之前也使用过其他工具,但是长尾拓展许多词拓展效果不好,比如r454l这个词,我在百度凤巢和5118能拓展出来的关键词不超过20个,但是使用金花站长工具拓展出来400个左右的长尾关键词,如下图所示!免费版的在长尾模式最多可以拓展出来500个长尾关键词,如果需要更加强大的功能可以选择升级vip,哈哈哈!
金花站长工具分析网站
查询网站收录
点击顶部的数据分析,可以查询网站的PC,移动收录率查询,可能有人会说使用site就可以啊,是的,用site确实是可以,但是金花站长工具多出了其他几个功能,比如是否死链,入链数,出链数,感觉还可以!
关键词密度分析
可以分析一个页面的关键词密度,直接输入对应页面的url然后点击分析就ok了!如下图所示:
金花站长工具分析网站
可以直观分析自己写的文章的词频,密度什么的,呵呵!
网站日志分析
感觉这个功能还是可以的,自己分析网站日志高端可用shell,但是对于小白难度不小,我们可以直接使用金花站长工具来分析网站日志,感觉挺实用的,哈哈!
蜘蛛池加快收录
一般网站刚建的时候可能蜘蛛发现的速度比较慢,这时我们可以使用金花站长工具的蜘蛛池功能,快速增加网站外链便于搜索引擎蜘蛛快速发现网站,加快网站收录速度,哈哈!
以上就是本人在日常工作中使用金花站长工具的情况,感觉金花站长工具还是挺不错的!