将光棍进行到底!

2007-11-11 01:17:56

大学开始过光棍节,记得大一的时候班上还每人发了一只棒棒糖+一个大红苹果,这是么子意思呢?

现在每年的今天似乎都会特别留心,男性的节日太少了~

光棍节应该怎么翻译呢?是Bachelor’s day ,还是Single Stick’s day?似乎后者合理点,但前者准确点,有女同志过1111么?

总之,节日快乐!

期待《黑暗物质–黄金罗盘》

2007-11-10 13:30:02

前两个星期补上了很多落下没看的电影,诸如《十二宫杀手》,《兄弟》,《合约情人》,《游侠》,《料理鼠王》,《C+侦探》…基本上都很失望,当然《料理鼠王》很精彩,《合约情人》还凑合(是因为有美女?)。无聊之际还看了《水浒传》,看了《浪客剑心》(starer同学要看),还有很多韩国喜剧,只是看了,基本上看了就没印象。《黄金罗盘》这部电影,其实已经筹备三年多了,今年12月份上映,我也是上半年才知道,然后一直有关注。虽然很多人包括我是奔着“魔幻”这个名头去的,但是莱尔的《黑暗物质》并不是一部严格意义上的魔幻小说,那么严格遵循原著小说情节的电影,可能无法让我看到如《魔戒》那样的中世纪风格的画面。但无论如何,《黄金罗盘》依然是今冬最值得全球影迷期待的电影。

PS:图中角色为莱拉·贝拉克瓦,披甲熊埃欧雷克·伯尔尼松。

黄金罗盘官方网站:http://www.goldencompassmovie.com/

robots.txt与robots META标签

2007-11-08 12:43:12

查阅有关META robots的东西,找到一篇比较全的,贴上来。robots.txt各大搜索引擎(baidugoogle)都有详细介绍,但是对于META robots似乎被关注的很少。实际作用也确实不大,页面内的<meta name=”robots” content=”…” />写法最为显著的用处应当是是否允许沿页面上的链接继续进行抓取,这种写法和robots.txt应该也有一个优先级的区别,况且现今也不是所有搜索引擎都支持Robots META标签。

以下内容摘自网络

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。

一、 robots.txt

1、 什么是robots.txt?

robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

www.w3.org/
www.w3.org/robots.txt
www.w3.org:80/
www.w3.org:80/robots.txt
www.w3.org:1234/
www.w3.org:1234/robots.txt
w3.org/
w3.org/robots.txt

2、 robots.txt的语法

“robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

“<field>:<optionalspace><value><optionalspace>”。

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字,在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在”robots.txt”文件中, “User-agent:*”这样的记录只能有一条。

Disallow :

该项的值用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow 开头的URL均不会被robot访问到。例如”Disallow: /help”对/help.html 和/help/index.html都不允许搜索引擎访问,而”Disallow: /help/”则允许robot访问/help.html,而不能访问/help/index.html。

任何一条Disallow记录为空,说明该网站的所有部分都允许被访问,在”/robots.txt”文件中,至少要有一条Disallow记录。如果 “/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

下面是一些robots.txt基本的用法:

l 禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

l 允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件 “/robots.txt” file

l 禁止所有搜索引擎访问网站的几个部分(下例中的cgi-bin、tmp、private目录)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

l 禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

l 只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

3、 常见搜索引擎机器人Robots名字

名称 搜索引擎

Baiduspider www.baidu.com
Scooter www.altavista.com
ia_archiver www.alexa.com
Googlebot www.google.com
FAST-WebCrawler www.alltheweb.com
Slurp www.inktomi.com
MSNBOT search.msn.com

4、 robots.txt举例

下面是一些著名站点的robots.txt:

www.cnn.com/robots.txt
www.google.com/robots.txt
www.ibm.com/robots.txt
www.sun.com/robots.txt
www.eachnet.com/robots.txt

5、 常见robots.txt错误

l 颠倒了顺序:
错误写成
User-agent: *
Disallow: GoogleBot

正确的应该是:
User-agent: GoogleBot
Disallow: *

l 把多个禁止命令放在一行中:
例如,错误地写成
Disallow: /css/ /cgi-bin/ /images/

正确的应该是
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

l 行前有大量空格
例如写成
Disallow: /cgi-bin/
尽管在标准没有谈到这个,但是这种方式很容易出问题。

l 404重定向到另外一个页面:
当Robot 访问很多没有设置robots.txt文件的站点时,会被自动404重定向到另外一个Html页面。这时Robot常常会以处理robots.txt文件的方式处理这个Html页面文件。虽然一般这样没有什么问题,但是最好能放一个空白的robots.txt文件在站点根目录下。

l 采用大写。例如
USER-AGENT: EXCITE
DISALLOW:
虽然标准是没有大小写的,但是目录和文件名应该小写:
user-agent:GoogleBot
disallow:

l 语法中只有Disallow,没有Allow!
错误的写法是:
User-agent: Baiduspider
Disallow: /john/
allow: /jane/

l 忘记了斜杠/
错误的写做:
User-agent: Baiduspider
Disallow: css

正确的应该是
User-agent: Baiduspider
Disallow: /css/

下面一个小工具专门检查robots.txt文件的有效性:
www.searchengineworld.com/cgi-bin/robotcheck.cgi

二、 Robots META标签

1、什么是Robots META标签

Robots.txt 文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。具体的形式类似(见黑体部分):

<meta name=”Robots” content=”index,follow” />
<meta http-equiv=”Content-Type” content=”text/html; charset=gb2312″ />
<meta name=”keywords” content=”营销… ” />
<meta name=”description” content=”时代营销网是…” />
<link href=”/public/css.css” rel=”stylesheet” type=”text/css” />

2、Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;
FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<meta name=”ROBOTS” content=”INDEX,FOLLOW” />
<meta name=”ROBOTS” content=”NOINDEX,FOLLOW” />
<meta name=”ROBOTS” content=”INDEX,NOFOLLOW” />
<meta name=”ROBOTS” content=”NOINDEX,NOFOLLOW” />

其中

<meta name=”ROBOTS” content=”INDEX,FOLLOW” />可以写成
<meta name=”ROBOTS” content=”ALL” />;
<meta name=”ROBOTS” content=”NOINDEX,NOFOLLOW” />可以写成
<meta name=”ROBOTS” content=”NONE” />

要注意的是:上述的robots.txt和Robots META标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<meta name=”googlebot” content=”index,follow,noarchive” />

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照 。

心情有点不好,随便扯两句

2007-11-06 16:28:23

这两天耐着性子看完了《水浒传》,看过很多遍了,也是闲来无事,又去租回来看。这次看感觉没原来那般有趣了,才发现原来剧中有如此多的演员多次扮演不同角色,包括很多主要演员。没看过原著,记得家里原来有本相当古老的《水浒传》,书中尽是繁体字,而且还是竖向排版,从右向左读。应该是老爸的,小学的时候偶然被我翻出来,正要看时,被老爸抢去藏了起来~···囧~以后再也没找着。租碟的时候就打算只看前30回,后面的十几回准会越看越伤感。本来前几十回荡气回肠,可这最后竟是这般结果,看得实在难受。剧中的宋江被导的太过于让人窝火,虽没看过原著,但那宋江也是人人敬重的兄长,自不会如剧中演得如此窝囊。晁盖的死让我们开始为梁山的命运担忧,那被李逵砍到的杏黄大旗,林冲的死让我们深信大势已去,再看,亦是徒增伤感。好在这108人并未全都战死沙场,命丧奸臣之手。鲁智深出家了,武松留在了六合寺,公孙胜走了,柴静回乡了,阮小二回了石碣村,燕青与李思思浪迹天涯“`可那受封的几十人却死得可惜,忠心报国的及时雨宋江,文韬武略的玉麒麟卢俊义,通晓天文地理的智多星吴用,还有那傻得可爱的黑旋风李逵,小李广花荣,尽数命丧奸人之手,怎不叫人惋惜~···

~····呃~···无语中~····

人生苦短,珍惜眼前,休为那些俗事蒙蔽了双眼~···

GIS,何去何从?

2007-11-04 22:01:37

时间到了11月,再怎么说俺也是大四的人了。身边的人都在忙着找工作,特别是女同胞们,面试笔试一轮又一轮。我似乎全不放在心上,身边几个哥们似乎也没当回事,可能大家都想着实在没着落去广东做个民工又有何不可?我们的LP同学都想着考研,然后去广东做民工,从基层做起呢~···

各类宣讲会,招聘会从上个月就开始陆陆续续上演了。说实话,就去了QQ的宣讲会,然后被鄙视了。再没去过什么宣讲会,简历也投得不多,也基本上都有去无回~虽说不想的时候不着急,可一想都11月了,倒是有点急了,毕竟时间不多呃~

刚才痛苦地忍受着学校那个垃圾就业网的网速,初略地看了一下最近的招聘信息,第一次在这上面看。基本上都是做实业的,更别说我们的GIS了,根本没看到那个公司要GIS的,cao~!虽然俺没想过做GIS的,但是至少有GIS的公司来,我基本还能去下撒~···也不知道原来那个谁谁谁说GIS这两年好签工作~···也没几个学GIS的同学说自己要签GIS,最后搞啥的都有,基本上算得上是我们学校最为悲惨的一个专业了。我也不否认未来GIS的巨大发展空间,但是说点实际的是,对于我们专业的人来说,基本上与我们无关。为什么?现在学GIS的普遍专业素质不高,绝大部分学校GIS专业的人才培养那就是乱的,毫无体系,譬如说我们学校~教课的不是搞GIS的,应该搞GIS的又没搞GIS~,学生那就是乱七八糟什么都在学。学了一大堆,然后又有人说“现在你们学的确实看不到什么用处,但是谁能肯定你将来用不上?”,我kao,这是什么P话,东西当然越学越多越好,但首先你得整个能让我们吃饭的,OK?学这么杂,没一样精,将来想用也使不上劲!难怪曾经就有好心的老师对我们说了实话,GIS不好找工作,即使研究生也基本只有两条出路 — 政府部门,学校。本科生那基本上都去证明“三百六十行,行行出状元”这句话了,那最后到底做了状元还是乞丐,不得而知。

话说回来,怨不得谁,是不?你要真是N人,干什么不行?所以自己倒也清楚自己的那点火候,工作的事情倒也没天天想着,顺其自然,有合适的就去。自己对工作要求还没那么随便,不是说有钱就去,主要看环境了,不太愿意强迫自己做不喜欢的事情。同时毕竟现在人还在学校,练练内功才实在~···。还是那句话,是金子就会发光!

Page 6 of 71234567