| birdhai's profile快乐燕园PhotosBlogLists | Help |
|
June 30 师妹越发发现我跟ZJ师妹共同点多多: 1.投奔同一个导师,自称“rp好才能碰到这么好的老马”(说的是实话哦)。 2.精瘦。哈,这可以说是整个师门的特点了,每逢跟其他师门聚餐时,我们总是很有优势——不怕吃胖——爱吃多少吃多少呗! 3.笑有点傻。几乎所有的照片上两个人都卖力地咧着嘴笑,生怕别人不知道我们牙白^_^。 4.有点小懒,总是会把事情拖到最后一刻完成。(哈哈,这个我在研究生阶段已经改变不少了) 5.神经比较粗。有时像个小孩,有时候又像个男生,做了@#%#$*……的事情还不自知,不止一次听她BF“数落”,咔咔,我好熟悉。 6.总是往前看,喜欢新鲜的东西。 毕业前夕 在陆续参加了一些活动:浙大校友会毕业生欢送会、之江论坛的浙江籍毕业生欢送会、北大学校毕业生晚会、系毕业集体照、研究生班散火腐败及一些零零散散的朋友告别小聚之后,终于觉察出“自己要毕业了”这个事实。 毕业,意味着要告别过去,意味着要有别离。昨天散伙饭上有不少同学哭了,我能理解,却不能感同身受。于别离,我早已练就了一副“铁石心肠”,多少次的车站送别,习惯了,习惯了微笑面对,不管有多么不舍。事实上,学生生涯的毕业告别,我一回也没有哭。在离开一个熟悉环境的时候,我几乎没有踌躇也不会有太大的伤感,或许是以往这些毕业告别都有一个共同都特征:即将奔向一个新的环境(小学毕业从小镇走向县城,中学毕业从县城迁到省会,到大学毕业从省会迈向首都),我对于新环境天生有一种探索的冲动和兴奋,这种兴奋冲淡了离别的悲凉。而这次毕业呢,即将留任的百度并不陌生和新奇,仅从物理空间距离而言,或许都不称为离开学校,当然,“离开”绝非是停留在物理距离层面意义上的,但是我仍然没有觉得很悲伤。“没心没肺”,我跟汪琼说,两个女生在漆黑的马路上笑成一团。 其实,不是不舍,不是不爱,很早之前在我领悟“只要曾经拥有,不在乎天长地久”这句话的时候便已经为我现在这种心态做好了铺垫:一定要在“有”的时候珍惜,爱情也好,生活也好,享受每个不同的阶段不同的乐趣,尽力做好每一件如果不做会给自己留下遗憾的事情,而“走”的时候除了那个贴着“美好回忆”标签的包裹不要再带走任何东西! 呵呵,扯远了,毕业前行的路上祝大家一路走好!“明天会更好!”而研究生这段生活,会作为学生生涯的一段“美好回忆”保留,当有一天我打开这个包裹的时候,你可能就蹦了出来^_^ 欲说还休下午K了三个多小时的歌,晚上班聚仍然去K歌,在喧闹的火热的包间和人群中,忽然想沉默一会,失语良久。
打车快到家的那一刻,却奇想唱,音符开始在心里飘荡,抑抑扬扬,居然是《欲说还休》,邓丽君版的,改自辛弃疾的词,缭绕整一晚上。 “少年不识愁滋味
爱上层楼 爱上层楼 …… 欲说还休
欲说还休 …… ” 诡异。 June 20 花•女人•爱情最近看了两部以花命名的影片《雏菊》、《茉莉花开》,片中都有花一般的女人,都有如散发芬芳的花期一般的爱情。
雏菊,又名太阳菊、延命菊,管状花黄色,如出场时的慧英,美丽、宁静、有点清纯,有点平凡。平凡的慧英陷入了三角恋,有点抑郁,有点孤单。为第一个男人她失去了声音,为第二个男人她失去了生命,却保留了爱情,在她心中,在我们记忆中。特别喜欢《雏菊》中的主题曲,歌曲名称就是“雏菊”,仿佛看见雏菊花瓣片片风中扬,心儿也就跟着飞起来了……
《茉莉花开》是一部让女生流泪让男生沉默的影片。我一贯不欣赏章子怡,但不得不承认她在这部片子里把祖女三代女人形象演绎得很生动。 茉,三十年代的女人,出场清脆的声音、涉世未深的清澈的明眸,“自是天上冰雪种,占尽人间富贵香”,“一卉能熏一室香,炎天犹觉玉肌凉”,尽显了茉莉花的冰雪之姿和馥郁之香。她爱着电影,憧憬明星生活,爱上导演,生下私生女莉,曾经虚荣,爱上华丽,有过向往,最终退让。 莉,五十年代的女人,自己不能生育,领养了女儿花,但又怀疑丈夫与养女有染。苛求阴翳的眼神,颤抖的嘴唇,我看到了一个内心缺乏安全感的近乎神经质的女人,逼得丈夫卧轨自杀,自己最终疯了。这是受时代和环境压迫的一代,还来不及展示花枝和花香就蔫了,枯萎了。 花,八十年代的女人,架副学生镜、扎俩麻花辫、身着绿色军装,好一朵绿树丛中的花蕾,灵秀、温柔、深情,盼其“香从清梦回时觉,花向美人头上开”,偏遇薄情郎学业有成弃她而去。历史总是惊人的相似,怀了孩子的弃妇,与外婆当年的境遇多么相似,但是她表现得更坚强、自立,一个人撑起一片天。虽然我不认为她一个人扛孕育生命这么伟大而艰巨的任务是明智之举,但在阿花一个人在雨中的街上生产孩子的那一幕后我妥协了,这就是生命的诞生,多么震撼人心,多么神圣!她的最后一个微笑也特别能打动人,胜利的笑,那么灿烂、那么坚定。拥有这样微笑的女人,世上有什么事情会打垮她呢!“他年我若修花史,列作人间第一香!” 宋诗人江奎道出了我这会儿的心声。 June 12 ……世界杯==足球节==狂欢节? 至少目前的几场不愠不火的球赛都还没能激发我这个假球迷的兴奋 知道这是一个循序渐进的过程 越到后来越精彩 期望着1/8、1/4、1/2、决赛的到来 却也有些害怕的这些时刻的到来 因为狂欢过后…… 会只剩下一个人了 一个人…… 毕业论文答辩毕毕业论文答辩毕。 早知道自己论文通过是no problem的,离优秀毕业论文嘛还差那么一点的,所以整个答辩过程对我来说没什么悬念。 不知道以后自己会不会有兴趣再去弄个博士学位,maybe我的学生生涯就这么结束了,纪念一下。 June 09 粽子记本文用以纪念那些坏了的粽子及这些天逝去的心情~~~~ 因为端午节的到来,开始想念粽子 以前在杭州随便一个小店都能买到的嘉兴粽 软软香香 油而不腻 里面还有我最喜欢的咸蛋黄 真不是北京这儿卖的难以下咽的粽子能比的 不忍我只能流哈拉子看看图片 老费从临海给我邮了一包生的真空包装的,走快递 第二天 我专门跑宿舍的信箱去取包裹单,一想到粽子剥了衣服的样子就忍不住嘴角上扬 打开 发现里面空空如也…… 第三天 我站在小格子信箱前,满怀希望,今天应该到了吧 拿回去赶紧放冰箱里,否则快坏了吧 打开——还是空的 天哪,还得明天阿 第四天 站在小格子信箱前,心想,今天总应该到了吧 待会去拿了赶紧煮了给大家分了,幸好今天天气还算凉快 在打开门之前 我把身体靠后从夹缝里往里瞧 嗯,还好,果然,今天不是空的 打开 ——却是北大新闻报 晕 我开始有些怀疑 邮局倒闭了吗? 第五天 我不再去看了,因为粽子已经坏了吧 …… 无所谓啦 第六天 第七天 我已经忘了有这么回事情了 第八天 也就是今天,刚好有事情经过宿舍的时候 楼长叫住了我“金海燕,你有包裹单” 哦,原来它今天到了。 都懒得去邮局取了 一是估计粽子早已经坏了吧 二是发现身份证不在身边,搬家的时候被打包了 三是已经没有那份馋的心情了 嘛邮局,倒闭得了,快递都要这么久 还是谢谢老费,亲爱的,我只能心领一下好意了 June 08 我们曾经都是好孩子我们都是好孩子
最最可爱的孩子 在一起为幸福落泪啊 我们都是好孩子
最最天真的孩子 灿烂的孤单的变遥远的啊 我们都是好孩子
最最善良的孩子 怀念着伤害我们的 我们都是好孩子
异想天开的孩子 相信爱可以永远啊 推开窗看天边白色的鸟
想起你薄荷味的笑 那时你在操场上奔跑 大声喊我爱你你知不知道 那时我们什么都不怕 看咖啡色夕阳又要落下 你说要一直爱一直好 就这样永远不分开 暖暖的午后,听着王筝的质朴的声音 很亲切 有点像自己的声线 还有一丝感动 是阿,我们都是好孩子,曾经 最最善良最最天真最最可爱的孩子 June 06 《搓麻将的女人》 纽约艺术博览会上一幅题为“2008-北京”的油画。 北京将举办奥运会,即Olympic Games。这幅画中也是Game,却是中国的传统Game--麻将。这些女子,代表着全球化竞技场上的博弈者。
解释一。加拿大某报的解读 画的左上角,是一幅标准像,乍看上去,熟悉又不熟悉,那是孙中山的胡子,蒋介石的光头,毛泽东的五官新组合的标准像。它象征着中国上一百年的历史,或者说是旧民主主义和新民主主义的全部。 画的左面,是一个最天真和最聚精会神打麻将的女孩,她为抓了一手好牌而暗中庆幸。 中间背影的女子,开了一个东风明杠,这象征着当前不可无视的事实--中国在崛起。虽然那女子有些不规矩的小动作。 中间正面女子,似乎有些外来血统。他在打牌之余,另有闲心眺望光源,也即将来。他穿着光鲜,脸上有一些忧虑。 再就是那个外国女郎了,她也来掺合中国的游戏,信心全无,躺在那里,因为她少抓了一张牌,相公,陪打。 右面显然是一个进城打工的农村姑娘,她是使中国掘起的生力军。然而他的脸上有一些不明白,有一些不满意。他手中握着一把亮晃晃的水果刀,这暗示着一种仇富心理,暗示着一种危机。 画的右边,在破旧的建筑的前方,有一条大河,有一些石头,这象征着前景莫测,只是摸着石头过河的现状。 解释二。解析为台海危机
1、这副画的背景是一条江河,天上阴云密布,结合这副画的名字,可以很快联想到2008北京举办奥运会的这一年,台湾海峡也是阴云密布。
2、画面左上角的一副人物画像,这个人物有着孙中山的胡子,蒋介石的光头,和毛 泽东的脸,代表了中国这一百多年来的历史进程。 3、画面中有四个女人正在打麻将,右边有个穿肚兜的小姑娘。正对着我们,穿着衣服的女人是美国,穿着衣服代表美国的实力最强。左边全身赤裸的女人是日本。右边躺在地上的女人是俄罗斯。背对着我们,身上有凤凰纹身的女人是中国大陆。右边穿肚兜的小姑娘是台湾(作画人可能认为台湾代表了传统中国,所以穿了肚兜)。 4、右边的台湾小姑娘手中拿着一把刀,正在看着中国大陆女人。暗示2008年,台湾可能乘中国大陆举办奥运会这一时机,而宣布独立。(台湾小姑娘盆中的水果代表什么,本人一时没有想出) 5、美国女人眼睛望着台湾小姑娘,代表了美国似乎有点担心台湾会宣布独立,因为这样美国就要马上和中国大陆打仗。而同时美国的双手绕过脖子放在背后,似乎在等待着台湾把刀刺向中国大陆的同时,拿出武器同时和台湾一起向中国大陆攻击。 6、日本女人一副洋洋得意的样子看着自己的牌。很显然,日本女人在这个局势下有一副好牌。她的双手摊开,暗示自己的牌很好,根本没有必要和别人私下换牌。 7、俄罗斯女人躺在地上,一只脚踏在美国女人的大腿上,而一只手则和中国大陆在偷偷的换牌。这里用躺着的形象描绘俄罗斯,脚暗示着俄罗斯的欧洲部分,手暗示着俄罗斯的远东。暗示俄罗斯在远东得到了中国的经济支持,使得在欧洲部分俄罗斯可以向美国叫板。在某种程度上牵制了美国女人把藏在背后的武器打向中国大陆女人。 8、中国大陆女人的牌可以看见三个东风,暗示这个局是中国大陆做东。中国大陆女人旁边的地上有两张牌,一张牌正在偷偷的给俄罗斯女人,这张给俄罗斯女人牌应该代表了中国大陆的经济支持。还有一张牌是俄罗斯女人给中国大陆的,应该代表了俄罗斯的军事支持。两个女人在底下偷偷换牌,各取所需。 May 15 那枚白金戒指跟smila和精灵在看琉璃首饰的时候,我突然想起了那枚白金戒指 那枚我从没见过却固执地认定是白金的戒指
那枚无关乎爱情的白金戒指……
那年,妈妈生日,40岁
奶奶送她的一枚戒指
据说那是一枚很漂亮的戒指 跟妈妈那时候纤细的手极为相配
她却愣是给换成了5张100的人民币,在我们见到那枚戒指以前
因为那年我考上了县里最好的高中
因为那年姐姐同时上了中专
因为在那半年之前的国企改革中老爸下岗了
老爸身体向来不好
办公室的工作找不到,累的活也干不了
妈妈安慰他
就当是放假,刚好可以调养调养身体
随着时间的推移
一个月 三个月 半年
老爸的眉头越皱越深 一边却仍是找不到新的工作
一个传统的工薪家庭
靠着微薄的工资养两个小孩
同时供应两个小孩上学
本就是件不易的事情
而小时候的我一直都没觉出来
因为印象中爸爸妈妈总是给我们最好的东西
包括吃住 包括教育
几乎没让我们受什么苦
只到这时我才明白他们有多不易
那枚消失的白金戒指
伴随着全面家那段艰难的岁月
没有抱怨 没有外债
很久以后
爸爸重新找到了一份不错的工作 直至顺利退休
姐姐中专毕业,大专毕业,在银行有一份稳定的工作
我大学毕业,到现在研究生快毕业
事过多年,当年的不易已经事过境迁
很多次,我和姐姐提起要补偿妈妈那枚白金戒指
妈妈总是一口拒绝
她说:过去了就过去了,有些过去的东西找回来也不合适了。
拉过她的手,纤细不再,慢是褶皱
“幸好,培养了两个很出色的女儿,这是任何东西都换不来了,我心满意足”
人的记忆会大浪淘沙,带走很多东西,但总有那些事那么些物被沉淀下来。对我来说,那枚白金戒指就是,它会提醒着我。 May 12 武林外传专有名词解释
以下内容转自百度贴吧武林外传吧 大嘴:平谷一点红,那可是真正的大侠,我是他粉丝! 老白:我还腐竹呢,边去!)
据有关小道消息,武林即将出续集,名称为《50,50》。这年头,web2.0啊,啥都讲究个互动呀!! April 29 美人鱼身为一个美人鱼 身为一个美人鱼
April 28 狗狗狗狗 狗狗是我很喜欢的动物,所以知道出了以狗狗为主题的《南极大冒险》,开心不已,看了以后更觉得赞。
April 17 常见聚类策略同上,呵呵
聚类策略是聚类的关键技术,策略的选择取决于聚类对象的数据类型、应用目的和限定条件,目前较常见的聚类策略类型如下图。
聚类策略 系统聚类法 划分聚类法 基于密度聚类法 基于网格聚类法 基于模型聚类法 分解法 聚合法 STING K-MEANS算法 K-MEDOIDS算法 单遍法 SOMS DBSCAN[1]聚类法 CLIQUE算法 启发式聚类法 Chameleon 等级聚类法(hierarchical Clustering methods) 等级聚类法,又称层次聚类法。根据聚类过程方向的不同,可以分为分解法(divisively )和聚合法(agglomeratively)两类。分解法把整个集合看作一个整体(类),再逐步划分为更小的部分(小类)。聚合法刚好相反,是把每一个个体都看成一个单独的类,尔后从文档相似度入手,通过粘连操作聚集相似度足够大的文档,逐步聚成更大的组(类)。等级聚合聚类法是目前使用最多、研究最为充分的算法,其基本思想,是通过建立并逐步更新距离系数矩阵(或相似系数矩阵),找出合并最接近的两类,直到全部聚类对象被合并为一类为止。根据类合并时所采用的相似度测算方法的不同,等级聚类又可分为:单链法(single linkage method)、全链法(complete linkage method)、组平均聚类法(average linkage method)。 等级聚合聚类法的突出优点是它能够生成比较规整的类集合,聚类结果不依赖文档的初始排列或输入次序,与聚类过程的先后次序无关,聚类结果比较稳定,不易导致类的重构。但它有不足之处为:①它是“贪心”的,每一聚类步骤都是将两个文档(或文档类)聚集成一个新类,因此,全部聚类过程需要n-1次循环,计算开销较大。如以O表示参加聚类的文献数,n表示文献中的词数,则单链法与组平均法的计算复杂性为O(n2),全链法则为O(n3) ,较大的计算量,有可能影响实时处理的速度;②一种资源通常只能归入相应类,对多主题文献揭示往往有一定局限性;③不是以主题内容为中心聚类的,聚类结果并不必然符合主题检索的特点;④这一方式通常首先根据相似性确定类,然后再确定类名,因此类名语词在对资源内容的确定和表达上往往有一定的差距。⑤这种算法得到的是球状的、相等大小的聚集,对异常数据比较脆弱,一旦一个步骤(合并或分裂)完成,就不能被撤销或修正。因此也产生了改进的层次聚类方法,如BIRCH算法[1][2],CURE算法[3]等。BIRCH算法把层次聚集的形成过程到结果看作一棵树,然后结合其他的聚集方法进行修剪。CURE算法选择基于质心和基于代表对象方法之间的中间策略,可以有效的处理大数据集和以种形状分布的数据,可以识别任意形状的簇而且不降低聚集的质量;能更好地过滤异常点,并提高了效率,减少了时间复杂度。一般认为,传统等级聚类也可以使用区分的方式,从资源的整体通过对资源属性差异的层层区分建立等级聚类系统。但在文献两两比较的基础上采用greedy法建立的区分聚类系统,具有与聚合聚类法系统基本相同的特点、问题以及算法复杂性。但也有学者对传统聚类方法的特点与不足存在着不同看法,如在计算开销问题上,有学者就认为,自动聚类的关键是聚类结果的有效性,在目前条件下其计算开销并非主要问题。[4]
划分聚类法(partitioning Clustering methods) 划分聚类法,又称动态聚类法、逐步聚类法,其基本思想是,在一个平面层次上对所有的样本点先作出某种较为粗略的划分,然后按照某种最优的准则进行修正,通过算法的迭代执行,得到一个较为合理的有K个类的聚类结果。近年来研究一直较受关注,其中最为典型的为K-MEANS算法[5]和k-中心点(k-modoid)方法。 K-Means法使用随机方式选择K篇文档作为初始的聚类中心,按照算法的迭代执行,整个算法的结束条件是类的重心(或凝聚点)不再改变。K-means的计算复杂性是O(nkt),其中,n为文献数量,k为类的数量,t为迭代次数。较之系统聚类法,划分聚类法明显的优势是运算量小,能用于处理庞大的样本数据,也为实时处理提供了一定的可能性。但其缺点是1)K-Means法要求用户必须事先给出要生成的簇的数目,选择初始划分的最佳方向、更新分区和停止准则。且其结果与数据输入顺序有关,不同的初始值可能会导致不同的结果;2)对于噪声和孤立点敏感,很容易受例外情况的影响。适用于发现球状类,但不适合发现非凸面状的簇。不适合大小差别较大的簇。3)这一方式通常首先根据距离来调整确定类,然后再确定类名,因此也存在着类名语词表达问题。4)一个对象只能属于一个类中,不能多维揭示其多重属性。基于K-means法,也提出一些改进形式,如Buckshot 和 Fractation法[6]、二分k-Means法等。 PAM(partitioning around medoid)是最早提出的k-modoid之一,它选用簇中位置最靠近中心的对象作为代表对象(中心点), 然后反复用非代表对象(非中心点)代替中心点,直到找到最合适的中心点。PAM法有效地消除了对孤立点数据的敏感性,比k-means方法更健壮,不易受极端数据的影响。但PAM只对小数据集非常有效(如100个对象聚成5类),对大数据集效率并不高。CLARA(Cluster LARger Application),也是基于k-medoid类型的算法,是对PAM的改进,Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids,能处理较大的数据集合。复杂度是O(ks2+k(n-k)),其中s是样本大小。
启发聚式类法(Heuristic Clustering Methods) 最典型的是单遍法(single-pass)[7]。这种方法按照一定的次序,将第一篇文献作为聚类依据,将其余文献按次序依次对其进行相似性比较,如相似性达到系统设定的要求,即将其归入该类,并重新计算其类心(centroid),作为其他文献的匹配依据;如未达到系统要求的阈值,则直接将该文献作为新类的聚类依据,所有文献均依次按这一方式聚类。单遍法的计算复杂性是O(nk),其中k为类的数量,其计算开销远低于传统的聚类算法。其不足主要有二:一是,这一方法具有明显的次序依赖,对于同一聚类对象按不同的次序聚类,会出现不同的聚类结果,但在检索排序的基础上聚类,由于最重要的资源排列在前,理论上这一方法会具有较强的适应性;另一个不足是,容易出现类目分布不均衡的问题,往往会出现集中形成某些大类的倾向。
基于密度的方法 (density-based Clustering methods) 基于样本之间的距离的聚类方法只能发现球状的簇,基于密度的方法可用来过滤“噪声”孤立点数据,以发现任意形状的簇。其主要思想是只要临近区域的密度(样本的数目)超过某个阈值则继续聚类。即对于给定簇中的每个样本,在一个给定范围的区域中必须至少包含某个数目的样本。包括基于高密度连接区域的DBSCAN[8]聚类方法,通过对象排序识别聚类结构的OPTICS聚类方法,基于密度分布函数的DENCLUE聚类方法。其缺点是也要求用户对初值的设定,而不同的初值会影响聚类的质量;不能处理高纬度的数据。
基于网格聚类法 (grid-based Clustering methods) 这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。其突出的优点就是处理速度快,通常与目标数据库中记录的个数无关的,而只与数据空间的单元有关。代表算法有:基于网格的多分辨率方法,在网格单元中收集统计信息的STING算法、综合了基于密度和基于网格方法的聚类算法,对于大型数据库中的高维数据的聚类非常有效的CLIQUE算法[9]、,通过小波变换来转换原始的特征空间能很好的处理高维数据和大数据集的数据表格的WAVE-CLUSTER算法。
基于模型的方法(model-based methods) 基于模型的方法首先是基于这样一个假定:目标数据集是由一系列的概率分布所决定的。那么,可以在空间中寻找诸如密度分布函数这样的模型来实现聚类。统计的方案和神经网络的方案是近些年两种不同的尝试方向。 SOMS(Self Organizing Map)[10]是芬兰赫尔辛基大学神经网络专家Kohonen教授在1981年提出的一种基于神经网络模型的聚类方法,它模拟大脑神经系统自组织特征映射的功能,在训练中能无监督地进行自组织学习。生物神经系统进化的过程是空间上相邻的神经元功能慢慢演慢慢相近的过程,相应的,SOM的训练过程,即是将领域上相邻但在n维欧氏空间并不相邻的权值向量wj调整到在欧氏空间也相邻。即权值向量集{wj/j=1,2,……,l,l为输出神经元个数}是对训练样本集中所有样本的描述,权值wj逐渐向样本集中的某些样本靠近,而单个权值向量可看作是以它为获胜神经元(Winner node)的所有样本的聚类中心。神经元之间的距离可以用欧几里德距离、位置向量之间距离、Manhattan距离等来表示。SOMS的优点为:可以实时学习,具有稳定性,无须外界给出评价函数,能够识别向量空间中最又意义的特征,抗噪音能力强。不足之出为:当网络的连接过多,节点数目庞大时,其计算量大;需要较长的学习时间; 网络连接权向量初值的选取对网络收敛性影响很大。 Chameleon(变色龙)方法是一个在层次聚类中采用动态模型的层次聚类算法。它将互连性和近似性都大的簇合并,可以发现高质量的任意形状的簇。但k-最近邻居图中k值和最小二等分、用户指定方式中阈值的选取仍是个难题。在最坏情况下,高维数据的处理代价可能需要O(n2)的时间,效率仍然不够。 [1] Tian Zhang,Raghu Ramakrishnan and Miron Livny. BIRCH:An Efficient Data Clustering Method for Very Large Database, Technical Report, Computer Sciences Dept.,Univ. of Wisconsin-Madison,1995 [2] Zhang,T.,Ramarkrishnan,R.,Livny,M.BIRCH:an efficient data clustering method for very large databases.In:Jagadish,H.V.,Mumick,I.S.,eds.Proceedings of the 1996 ACM SIGMOD Intermational Conference on Management of Data.quebec:ACM Press,1996.103~114 [3] Guha S,Rastogi R,Shim K.CURE:an efficient clustering algorithm for large database.In:Haas LM,Tiwary A,eds.Proceedings of the ACM SIGMOD International Conference on Management of Date.Seattle:ACM Press,1998.73~84 [4] Anastasios Tombros, Robert Villa, C.J. Van Rijsbergen The effectiveness of query-specific hierarchic clustering. in information retrieval Information Processing and Management 38 (2002) 559–582 [5] Mac Queen, J., 1967, one method for classification and analysis of multi-variate observations In: Proc. of the Fifth Berkeley Symp. on Math., Statistics and Probability, LeCam, L.M., and Neyman, J., (eds.), Berkeley: U. California Press, 281. [6] M. A. Hearst and J. O. Pedersen, Reexamining the cluster hypothesis: Scatter/Gather on retrieval results, in: Proceedings of the 19th International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’96), 1996, pp 76-84. [7] D. R. Hill, A vector clustering technique, in: Samuelson (Ed.), Mechanized Information Storage, Retrieval and Dissemination, North-Holland, Amsterdam, 1968. [8] Ester M, Kriegel HP, Sander J, Xu X. A density based algorithm for discovering clusters in large spatial databases with noise. In: Simoudis E, Han JW, Fayyad UM, eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996. 226~231. [9] Agrawal R, Gehrke J, Gunopolos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining application. In: Haas LM, Tiwary Aeds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle:ACM Press,1998.94~105 [10] Kohonen, T., 1990.”The Self-Organizing Map”, Proceedings of the Institute of Electrical and Electronics Engineer, vol.78, pp.1464-1480. 知识性搜索引擎浅谈这是原来毕业论文中的一小段 ,改题名了以后根本就用不上,就贴这吧,嘻嘻
发展背景 据yahoo公开发布的Internet用户搜索需求数据显示:获取知识性内容信息约占用户需求的30%。所谓的知识性需求,既包括对某一具体数据的需求,如2005年中国国民生产总值,今日天气预报、中关村三星手机报价;也包括对某一类型数据的需求,如如何保养皮肤,互联网行业状况,保先材料等。 对于满足用户的知识性需求,传统搜索引擎由于存在以下弊端而先天不足:首先,它缺乏对深层次的动态信息(如论坛信息、博客信息)的支持,目前鉴于收录成本,传统搜索引擎对一些生成动态页面内容的后台数据库内容往往不收录或限定其收录的数量;其次,即便符合用户需求的内容页已经为搜索引擎spider所收录,但由于网页权重等因素(pagerank算法的局限性),在成千上万个字面相关的网页中它未必能”脱颖而出”排在检索结果的最前面,从而大大加重了用户的查找负担;更何况,有些信息并非以文本方式存在于互联网上,而是以隐形知识的方式存在于网络终端的网民头脑中,巧妇难为无米之炊,搜索引擎当然不能提供用户其需求的信息。 知识性搜索引擎就是在这样的需求和背景下产生的,它是专门针对知识需求而设计的搜索引擎,但又明显异于专业搜索引擎(专门搜索引擎)。专业搜索引擎(专门搜索引擎)与传统搜索引擎原理是一致,都是由本地服务对spider抓取来的网络信息进行索引以供用户进行查询,其差异仅在于收录资源的类型及进而导致的排序算法和显示方式。而知识性搜索引擎的建库不需要spider,它首先是一个知识问答平台,通过分值头衔等奖励机制鼓励用户回答问题,从而挖掘出用户头脑中的隐形知识,满足提问用户的信息需求。而所有的这些提问和回答也汇总为一个知识库数据,通过分类索引后供用户检索使用。 实质上是知识挖掘和管理 最早的知识性搜索引擎,当推韩文的naver ,而在中文领域,国内三家比较著名的网络信息组织公司也先后推了知识性搜索引擎,分别是新浪的爱问、百度的知道、雅虎的知识堂。其共同特征为: 第一, 网民以问题的方式提出自身关心或需要的内容,具有很强的针对性。所有网友都可以对此问题进行回答,其回答的过程是一个将传统搜索引擎上能搜索到的信息、某些没被传统搜索引擎收录的动态论坛、博客、书面出版物或者是数据库上的信息、存储在网友头脑中的认识和经验(包括技能)等进行精简、提取、整合组织、加工,并按照某种逻辑性有序排列的过程。信息一旦经过加工整合处理后便形成一种新知识,既包括对显性知识的整合、也包括对隐性知识的挖掘,以知识含量更高的知识单元形式表达出来,是知识内容的提纯和浓缩,其实质属于一种广义的知识创新。 第二, 采用人——人对话方式,提问者与回答者之间的交流是双向互动,改变了传统检索模式中单向的信息流向。同时由于积分体系的激励机制,调动了网友的积极性,从而确保了知识组织的质量。网友彼此间进行充分的知识分享和信息交流,最终形成对一个知识点的学术的、民间的、诙谐的以及跨国界的解决方案。 第三, 用户既是信息的享用者也是信息的提供者。不同的知识点汇集在一起形成一个广大用户共同建立的知识信息库,这知识库明显是知识在更高层次上的集成化、网络化,是知识内容的提纯和浓缩。知识库在分类索引后以提供检索的方式为更多的人提供有效的信息服务,是知识共享的基础和方式。 知识性搜索引擎的目标是在最需要的时间将最需要的知识传送给最需要的人。从特征可以看出,知识性搜索引擎具备了知识管理主要三个功能:一是对显性知识的序化,建立知识库;二是对隐性知识的挖掘,实现隐性知识的显形化,并充分调动了参与网民的知识、智慧和创新能力,相当于具备了流动人才库;三是对知识库的组织,提供检索供知识共享。因此知识性搜索引擎实质上是知识挖掘和管理。
April 11 各搜索引擎眼中的“搜索引擎”想看看搜索引擎都是怎么“看待”其它们搜索引擎的。
基本上,搜索结果都是由对搜索引擎的研究和主流搜索引擎网站两部分组成。 April 10 通往春天的列车返工完毕设的受控词表,已是凌晨四点。躺在床上,闭着眼睛,似睡非睡。感觉着窗外开始渐渐透进微微的光线,思绪在飘,似乎随着一辆快速而又平稳的列车在前进,过隧道……经过山洞……看见麦苗,绿油油的……在空旷的天空下,交错的小路上,有个妇人挑着簸箕,簸箕一头是一个调皮的小孩,一头是一个石块,荡荡悠悠,悠悠荡荡……哦,my god,油菜花,一整片一整片的,放眼望去尽是金黄色的……有两个小女孩在嬉闹……在油菜花丛中穿梭……她们有着一样的装束……粉粉的百折裙……散着头发……金黄色的发箍,如油菜花色……近了……镜头拉近其中一个小女孩……她一巅一巅顽皮地跑着……头发有点凌乱……脸还有点脏……惊人的眼熟……不对……不是两个人……而是一大群人……一大群小孩……有小男孩有小女孩……围着一个体态偏胖的妇女,坐在田埂上……哦,我认识……那是初中英语老师……他们在着干什么呢……咦,怎么不见了……清清的小池塘边,一女子在搓洗衣裳,嫩绿色的柳枝随着微风轻轻舞动,偶尔柳尖滑过水面,形成水波慢慢荡漾开去,越扩越大……越扩越大……咦,那边有只小船……船夫轻巧地划着……他正朝着我的方向划来呢……他的背景是一座绿绿葱葱的小山,山顶有一个白色的塔……往右边看,水面上凸现着一座拱桥……往左边看,居然有古色古香的游轮,满载着游客……莫非我到了……我正寻思,突然传来一真阵熟悉的银铃般的笑声和打闹声,那是一只小划船,六个女生,她们的船在不均匀桨划与风的合力下飘到了湖中央,她们在玩水和嬉闹,全然不顾快要下雨的老天与她们怎么把船划回岸边的问题,呵,她们好年轻啊,好可爱啊…… 眼皮越来越重…… 后来再去了哪,已经记不得了,只知道 这一夜,我坐上了通往春天的列车。 April 04 泰山又是一次苍促出游,而我似乎已经习惯了这种旅游方式,这让我觉得刺激:)从前天晚上9点生出念头与GG一拍即合,到一小时后背着简单行囊在北京站候车,到周六一大清早在泰山山脚大红门,到晚上在济南在娱乐城打游戏,到现在周日早上8点我回到宿舍坐在电脑前,总共一天的时间,我们已经爬完了一趟泰山。呵呵,现在整个宿舍楼静悄悄的,大家都还在睡梦中,我想先写点感受然后爬上床睡觉。 自然风光。泰山的自然风光真是有点让我失望,它雄伟是最能打动我的点,却也是唯一能打动我的点。“黄山归来不看岳”是句实在话,泰山的景确实不如黄山(本科大二那年去的)。或许就是南北方山气候致使,在我看来,江南信手捏来一座叫得出名字的山,景色都要强于它,如:杭州的北高峰、浦江的仙华山、甚至武义的蓬莱山等等。红门至中天门的沿途风光,两边灰灰的树木,偶尔冒一株挑花或樱花,让我有身在北京到剑扣途中的错觉;坐在从中天门往南天门的索道车上完下看,几个错落的山头,稀稀拉拉的或灰色或暗绿色的树木,中间嵌着几条百晃晃的盘山公路,更是加深了我的这种错觉。只到到达南天门顶上,视线豁然开朗,泰山的雄伟才体现出来。 我在泰山顶。
山顶总貌。
一览众山小。
泰山双松,与黄山迎客松颇有点相似。
人文景观。最重要两个特征为,道观寺庙和壁上题字狂多。我们的行程是从红门爬到了中天门,然后从中天门坐缆车到南天门,回来的时侯反之,从南天门爬到中天门,然后坐车离开。沿途的道观寺庙,我们一律未进,因为去年五一五台山上大大小小300多个寺庙让我们觉得有些“审美疲劳”了;沿途的题词,呵呵,大约只能读懂三分之二,而题词人认识得就更少了,十有七不认识,由于我们最初走的从大红门到中天门的那段路上的题字,少有出自有名的文人骚客之手笔,而绝大多数为明代宦馆、民国军阀等一些权势之人提笔,出一些“风水宝地”、“有求必应”等一些俗气的题词,已读让我觉得很泄气,觉得泰山简直“名不符实“,这也是我们到达中天门的时侯直接坐缆车而上的原因。后来从顶山往下爬的时侯才见识了一些算是不错的提词和牌坊。 PS: 泰安是个旅游城市,道路修得很宽畅,物价很便宜,山顶香卖五块钱三把,民风挺淳朴。但总体来说城市没什么特色,尤其是没什么特色的小吃,之前查到的资料及在本地问到的,只有一种,小米煎饼夹大葱。乖乖,我最讨厌吃大葱了,光那个小米煎饼味道也不好,不如北京的煎饼果子,所以我们不辞辛劳转到济南去吃晚饭。 有些名胜,从来没去过是种遗憾,因为它已经被升华成为中华民族的文化象征,但去了一次就“心满意足”不会有再想来第二次的欲望,长城八达岭是,我想,泰山也是。 March 30 束书不观,游谈无根
周末整理了一翻书架,也就整理了一下这两年都看了些什么书,当然,不包括专业书啦。 《人类的故事》房龙 房龙是一个不错的故事叙述者。 《圣经的故事》房龙 为了跟Christian室友探讨上帝而看的书。 《全球通史》斯塔夫里阿诺斯 买的是盗版书,看得贼吃力。 《晚清的魅力》夏晓虹 陈平原的LP,文笔还不错。 《赫逊河畔谈中国历史》 黄仁宇 通俗历史读物。 《万历十五年》黄仁宇 通俗历史读物。 《从历史看管理》许倬云 《剑桥欧洲经济史》 《法理学》,博登海默,邓正来译。 法理学的开山之作,以今天的眼光看,仍有许多真知灼见。 《制度是如何形成的》朱苏力 思维流畅缜密,文笔犀利,苏力老师是一个很让我佩服和喜欢的学者,尽管他阵子因研究生事件遭受很多人的攻击和批判。 《经济学》斯蒂格利次 《经济学原理》曼昆 和上面一样,经济学基础读物。 《博弈生存》潘天群 博弈,游戏规则,人生所难避免。 《中国哲学简史》冯友兰 对春秋战国时期的哲学流派介绍和剖析得很清晰。 《人生哲学》冯友兰 《大众哲学》艾思奇 《张中行》顺生论 《人生之体验》堂君毅 《人生十论》钱穆 《乡土中国》费孝通 《新乡土中国》 贺雪峰 《媒介及讯息》麦克卢汉 何道宽译 《麦克卢汉精粹》麦克卢汉何道宽译 《20世纪传播学经典文本》张国良主编 《传播与文化研究辞典》约翰.费斯克等 《信息规则》卡尔·夏皮罗 《大规模定制》 约瑟夫 《人类心灵的神话 荣格的分析心理学》常若松 《梦典》(美)洛夫 《经济学家茶座》山东人民出版社 国内第一种经济学类杂志书,堪称经典。刚接触时,很是惊喜,“经济学文章”竟然可以这样写啊。现在大约已经出到第二十册了,随着册子的增加,感觉其总体质量在下降。所以现在也就没有以前那份盼着新册出版和上架的迫不急待了。也或许是因为其文章风格对我而言已不再那么新奇,产生了所谓的“审美疲劳”。 《读书》 三联 这书给我带来的最大乐趣竟是和GG在各旧书市场淘,慢慢集齐所有的年份。这书从83年开始出,但93年以前的基本在书店买不到,而这十年却是最精彩的,各大师名字最活跃的时代,因而,我和GG每次在书市碰到这期间的《读书》总会开心不已。 《走读浙江》王旭烽 作者是我杭大历史系的师姐,主题是我的故乡,所以在第三波书店买下了只剩最后一本的甚至封皮已有些脏的这书。但文笔和资料剪辑得一般。 《经典常谈》朱自清 《柳如氏别传》 陈寅阕 《北大旧事》 陈平原 夏晓虹 《老北大故事》陈平原 《八十亿双亲,师友杂忆》钱穆 《宋云彬杂文集》宋云彬 《顾颉刚读书笔记》顾颉刚 《历劫终教志不灰 我的父亲顾颉刚》 顾潮 《文明的冲突与世界秩序的重建》(美)塞缪尔·亨廷顿
整理完后发现,这些书大多数是在研一的时候看的,现在几乎是“束书不观,游谈无根”。本想整理一下,给写个读后感或者将已有文字电子化,但码完《圣经的故事》以后就有些后悔了,这等费时费力的事情,不该在工作和论文并行期间完成,呵呵。 《圣经的故事》房龙研一时的室友是个Christian, 她说,“你信教吧!” 我说,“还没有人能证明上帝存在” 她说,“只要你相信他存在,他就会真的存在,就会在你身旁。”“圣经能告诉你上帝存在。” 我读完了这本故事,很认真很虔诚,不是奢望寻找上帝的存在,而只是因为“you never can be thoroughly educated without knowing these stories”(在西方)。 读完后我得出的结论是:《圣经》仅是一本记载犹太民族的史书,与其他国家或地区的普通史书无多大区别。如果一定要说区别的话,那便是书中不符合常理和逻辑而以类似神话方式展开的情节比教多。我觉得这可以归结于两点原因:其一是其记载的历史久远,一些细节无准确可靠资料,可以由撰写者发挥想象杜撰,把一些不能解释的现象都归结为神怪,中国的《山海经》也便是这么来的;其二,犹太历史学家犯了所有爱国的历史学家们都会犯的错误,在回顾历史的时侯,总是尽量把祖先放在最引人注目的位置上。许多世纪以来,《旧约》是我们人类能读懂的唯一关于中亚的书籍,只到100年前埃及象形文字被辨认,50年前巴比伦楔形文字被破解,我们才慢慢知道原来还有与古代编年史家所将的故事截然不同的说法。他们为了增添民族的容耀而歪曲或者叫“润色”了历史,这是可以理解的,今天的我们的史学家们仍是这么干的。如果从来不了解领国历史教科书是如何记载这件事情的,那么“事实”就是我们“相信是事实”的东西。因为,读书的小孩会毕生坚信,史书上记载的都是事实。
March 27 answer呵呵,被点名了,发现多是感情问题呢,不过我还是乖乖回答了:) 1. 你会为了最适合你的人一直等待吗? 不会吧。因为“最合适”太难界定,在朝夕相处之前你是不能确定两个人是否合适的,而“最合适”也许就是慢慢磨合出来的。 如果人生是一场旅行,那就不要错过了一路的风景。 2. 下一个目标是什么? 毕业论文早over PA(或许需要很长久时间努力) 3. 目前的生活是你想要的吗?
呵呵,对于知足常乐的我而言,目前的生活不算坏。 4. 当你不再爱的时候,会因责任而留下吗?
如果有baby会吧,之前难说。 5. 会向你爱的人发脾气吗?(问题来源:Kingdom) 会啊。吵架、发脾气是恋爱大餐中的调料——醋,一直都在吃甜、辣、咸的食物,偶尔来点酸味道也不错。 恋人吵架,不是因为不爱,而是因为“要”爱。 6. 你还是以前的你么?(问题来源:CHRISTINE) 当然。 7. 上一次落泪是什么时候因为什么?(禁止以“切洋葱眼进沙”之类的答案来敷衍!)(From: Geo)
上周,因为思念谁。 8. 你相信命运吗?(From: FF) 相信命运把握在自己手里。 9. 你觉得自己理想化吗?(From: Goodrainbow) 自己不觉得,但老有人告诉我这样。 10. 对你影响最大的亲人是哪一位?(From: Christine) 妈妈。她的好强、坚韧、善良,乐观应该也刻进了我的骨子:) 11.如果你被迫放弃稻草作为你的朋友,可能会是在怎样的情况下?(From daocao) 如果有个ppmm逼迫我放弃稻草作为我的朋友,我就放弃。 重色轻友吧,sign,可惜我不是男生呢 为什么会有“被迫”呢,稻草,你的题很烂。 12. 爱你的人与你爱的人,你选择哪一个?(From Jean)
我很贪心,一定要找一个结合两点的人,否则他不会是我的MR right。 13.当现实与你的理想差很远时,你是会继续为你的理想而奋斗还是与现实妥协?(From RobinYu)
活在现实中,理想留心中。 14. 毕业旅行准备去哪呢?或是近期的旅行计划是哪?(from sophia) 香格里拉(不是狭义的云南省内香格里拉,而是西至西藏林芝,东到四川泸定,北至四川最北部的若尔盖及石渠县最北端,南至云南丽江一线的大香格里拉) 16.拿了上班后第一份工资,你会(或者是已经)送谁礼物,送什么礼物?(from scray) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|