2010年6月1日星期二

简单的可能是最好的

注意:本文不谈哲理。

最近测试了一下用贝叶斯算法对短信进行分类。测试数据是经过人工肉眼分类的1万多条短信,分为正常、广告、犯罪、黄色等多个类别。

贝叶斯算法有两种选择,一种是朴素贝叶斯,另一种是费舍尔贝叶斯,前者假定各变量之间完全独立,后者算法相对复杂。当然,大学毕业10多年我已经没耐心去看具体算法了,只知道这些大概。

要把文本内容拿去做贝叶斯训练和分类,首先就要把它拆开成多个独立的字或者词。这对于英文不是个问题,因为英文单词之间有空格来分隔,而对中文就复杂了,因为如何分词是一个需要一定智能的问题。比如说,“和尚未曾谋面的人通电话是一种冒险”与“和尚未曾谋面尼姑倒先见到了”,他们的前6个字完全相同,断句方式却截然不同。按照见到一个词就分一个词的算法来做,最简单,但是也最容易出简单错误,比如在前面这个例子里,只要词库里有“和尚”这个词,就会先匹配“和尚”。另有更为高深的分词方法,无非是向后多看一些字,根据语言习惯或者说是用词搭配的概率来决定如何断句。

测试方法就是哪一半的短信来“训练”,以得到合适的参数,然后用这些参数对另一半短信进行分类,分类的结果再跟“标准答案”做比较。

结果很有意思,用朴素贝叶斯算法以及最先见到最大长度词语匹配法的组合,能得到最佳的效果,不但准确度最高,达到95%,而且速度最快,在一台双核Intel CPU的机器上能做到零点几个毫秒处理一条短信。

这个结果有些出乎意料,天下怎么会有这等好事,吃草最少的马儿竟然跑得最快。

2010年1月8日星期五

幼时记忆

“我记不得自己被生下来的时候”——阿甘曾经这样说过。

 

有人跟我说幼儿的记忆在2岁左右会被清零,我没考证过这个说法的正确性。这个理论认为2岁之前的记忆之间是通的,比如说1岁10个月可能会记得1岁8个月时候的事,2岁之后的记忆之间也是通的,比如3岁记得2岁半的事情。而2岁前与2岁后的记忆是不通的,也就是说,2岁后不可能记起2岁前的事情,虽然有些事情在2岁前原本是记得的。

 

努力探索自己最早的记忆是很有趣的。我只知道这些记忆是在5岁半之前,因为5岁半搬过家,而记忆中的场景是在搬家之前。这些记忆片断包括:

 

我感觉自己最早的记忆是某个夏天的早晨,不知为什么我醒得很早,一个人起来了,走到外面的公共走廊上。带我玩的大朋友在走廊的竹床上还睡着,我没去打扰她。

 

还记得那时候跟别的小朋友去九棉一厂的防洪坝上去抓蝴蝶,偶尔会有好几只蝴蝶排成一串在飞的,有一次,我用扇子一下子扑住了好几只蝴蝶,很高兴。抓完蝴蝶回家爸爸要我洗手的,说蝴蝶翅膀上的粉有毒。

 

还有一次,爸爸写了两个数,让我写加起来等于几。当时我根本不记得自己学过,心中纳闷“难道我会吗”,看爸爸的样子我觉得自己似乎应该会,于是凭感觉愣是写了出来,竟然还真写对了。

 

据说有一次我把舅母娘从家里带到了爸爸上班的地方,我自己一点都不记得。那段路程骑自行车的话要半个钟头。我记得的是有一回表哥带我去澡堂,他进去了让我在换衣服的地方等,结果我等得不耐烦了就自己走回家了,那个路程骑自行车10分钟估计是要的。

 

说到澡堂,以前的单位公共澡堂里似乎有个大池子,人可以坐在旁边,也可以跳进池子里,在池子里能够稍微游个一两步。我印象里似乎是跟妈妈一起去的,不过只记得看到的人都是白花花的,是男是女没印象。

 

小时候跟大人还会发生误会呢。有一次我早上醒了,睡在床上故意学自己以前说不清楚话的时候的发音,结果爸妈真的以为我说话又退步了。我当时心里很郁闷,觉得大人怎么连逗你玩都分不清楚呢。再有一次在回家路上,看到商店橱窗里有一个塑料弹射转盘冲锋枪,流连了一会儿,回家之后不知道为什么我哭了,于是爸爸出去了,回来的时候带来了那个枪,我当时心想“我又不是要那个才哭的”。

 

有一回妈妈不小心用针扎了我的手,她老以为我不记得这事情,以为我是听别人说的,其实我真的记得。

 

还记得去过楼下的公共厕所大便。那时候都是蹲坑的,现在想想真后怕,万一掉进去怎么办。

 

我不记得自己在托儿所里是怎么哭的,据说因为哭着要回家所以没有去过几天托儿所。但我确实记得托儿所里有一排小痰盂被嵌在象个长凳一样的东西上,小朋友们不分男女要想大小便就自己去那儿坐着。还记得托儿所老师带着小朋友们经过门口的时候,因为那儿有只猫,我没敢过去。我还有一小段记忆,托儿所里每个小朋友有一个带栏杆的深红色小床,我在床上看到窗外的树被风吹得摇来摆去。

 

小时候的流行歌曲,我所能记得的,有“学习雷锋好榜样”,“走在乡间的小路上”,“我们来到了太阳岛上”,这还多亏一个邻居家有台放唱片的机器。这家的灯泡曾经爆炸,碎玻璃片溅到了其中一个儿子的肚脐眼里,结果他妈妈逢人就说“我家xx以后真是能当解放军的啊”。

 

大概还是在他们家,有电视看。似乎当时看铁臂阿童木,加里森敢死队大概也是那时候看的,这我记不清了,反正有电视看。还有个大概叫“艺苑之花”的节目,之所以记得,是因为“苑”这个字我不认识,看到片头的时候有人教我这个字怎么念。

 

还记得小时候在外面,被铲煤的还是扫地的人手里拿的工具(铲子或者大扫帚的把)给撞到头了,哭了。一次在别人家里,有两二八自行车停在屋子里,我摇脚踏板玩,车倒了,我被压了,哭,人家哄不来,塞五块钱的大钞票在我手上,说“别哭了,看,给你五块钱”。当然,我不为之所动,继续哭。

 

小时候住在二楼,楼梯很长,而且残破,大人跟我说过说我在楼梯摔过跤,于是有一次我下楼梯的时候想到这个就心慌了,结果真的又摔了一回。头皮摔破了,贴了纱布,最后揭掉纱布后就把纱布从窗口扔了出去,仍在了旁边房子的屋顶上。

 

小时候就九棉一厂门外面有个粮店,也兼买小人书,摆在玻璃柜台里卖。我记得那时候买小人书纯靠看封面,哪象现在还能翻开来看内容。

 

还记得夏天夜里,大家都在楼下乘凉,爸爸让我看天上银河,我抬头看了半天也不知道他说的是什么东西。还记得一次乘凉的时候树上掉大青虫子下来,落在别人的身上。

 

 

上面这些都是5岁半之前的记忆,想想真是有趣。

 

有张照片被一个旅游网站放到他们的页面上去了

其实已经过去一段时间了,老没空闲来显摆,今天还是忍不住说说。照片是在萨尔斯堡拍的,很普通的一个标准风景照,上载到了picasaweb上。

 


picasaweb被和谐掉了,要想访问的话,需要在自己机器的hosts文件里加入这么一段就可以看了:
203.208.39.104 picadaweb.google.com
203.208.39.104 lh1.ggpht.com
203.208.39.104 lh2.ggpht.com
203.208.39.104 lh3.ggpht.com
203.208.39.104 lh4.ggpht.com
203.208.39.104 lh5.ggpht.com
203.208.39.104 lh6.ggpht.com

hosts文件一般在C:\windows\system32\drivers\etc\目录下

 

还是老外办事情讲究,用了照片还不忘留个言,在自己网站上还标出来照片的作者。


照片在这里:
www.happytellus.com/salzburg/austria (是个一张小图,不是那个最大的)
http://www.happytellus.com/gallery.php?img_id=2516 (这里是大图)

 

显摆完了,心情舒畅啊。。。

2009年11月27日星期五

蓝领可能才是好打交道的人——几次擦碰事故的处理经历

一般人会觉得所谓白领才是彬彬有礼、明白事理的,而所谓蓝领是粗鲁而易冲动、纠缠不清、不讲道理的。可是我自己几次擦碰事故的处理经历证明,事实正好相反,蓝领可能才真正是讲道理、好打交道的。

 

第一次擦碰发生在公司当时所在大楼的出口处,我在等时机从大门口转入干道,一辆红色标致307不耐烦地从我左侧的逆向车道超了出来,然后向右拐,把我前保险杠左侧轻微擦了一下。然后我就得到了事故处理方法的第一个教训。我停车,对方也在稍远处路边停车,由于我正堵在大门出口处,所以我接着就把车子再开起来,想停到对方车子附近的路边,结果,我的车一动,对方就开车跑了。于是后来我知道,哪怕你挡住了后面无数车子的路,在跟对方驾驶员理论之前,千万不能动,你一动人家可能就要跑。后来的细节就不多说了,反正最终通过交警查到对方联系方式,人家却就是不肯承认是她的责任。直到发现这个人竟然跟我是在同一个公司工作,这位在大型高科技合资企业里的白领女性的口气才软了下来。但最终,在理赔中心办定损理赔手续的时候,人家又反悔了,不认可300块的喷漆,要求到她找的修理店去做抛光。最后,这位白领在理赔中心情绪失控大吵大闹,理赔的事情泡汤。

 

后来,在一个元旦前夜,我急着回家,在高架的匝道口把一个塞欧的后视镜给碰断了。我自己的后视镜只有个擦痕,赛欧的却完全折了,只剩一点点连着。对方车上人下来,先是对我表示不满,然后提出800块私了,我当然不同意,对方让我也还个价,我因为不了解行情没敢出价,坚持走保险公司流程。本来约好了去理赔中心的时间,几天后,对方打电话过来说算了,不想专门跑一趟了,说他自己修。我估计接下来他肯定是要开始批评我了,为了不在电话里听批评,也为了不想道德上亏欠他,我先简单自我批评,然后说我干脆寄一个车模给他算了,表示各歉意。对方听了也挺满意的,就告诉了我地址,地址是在沪青平公路多少多少号,没有楼号或房间号。从这个地址判断估计是个什么工厂,于是我快递了一个闲置的赛欧车模过去。他收到之后,还专门给我打了个电话,表示感谢云云。


最近,被人家追尾了,又是个标致307。不过这次对方的保险杠凹了,我的却只有擦痕。这位是某食品厂的,名片上号称技术总监,但怎么看怎么跟我们小区外面装铝合金门窗的人差不多。食品厂的技术总监在语言沟通能力上真的比较弱,在给保险公司电话、在理赔中心描述情况、找保险单号、问路等等的事情上,都是那种怎么说也说不清楚的,而且似乎这还是他第一次走保险流程,什么都不明白,害得我是又着急又无可奈何。但是有一点,对方每次都跟我说不好意思,在选择理赔中心和发票换钱的地点的时候,都让我来选对我方便的地点。今天他骑摩托车来我们公司门口,拿了我的修理发票,付了400块维修费,临走还说中午了正好请我吃个饭。

 

如果以偏盖全地说白领都是狡猾自私之辈固然偏颇,但是当你遇到一些比较难缠的事情的时候,最好不要遇到那些坐办公室的白领,宁可碰到蓝领人士,解决起来可能反而会爽快些。

2009年10月25日星期日

“讲究”的三个层次

世上有很多东西是可以拿来讲究的。数字里是不是要避4而就8,事件安排要不要先查老黄历,吃饭的时候鱼是不是可以翻个身,吃羊肉是不是一定要吃某个地方产的,喝饮用水是不是非得某个牌子的,买房子摆家具是不是要依据风水,等等等等。



第一个层次:懵懵懂懂,无知者无畏。这个层次上的人最轻松了,想怎么做就怎么做,只要不被别人点破就没有烦恼,甚至有时候别人提醒了也不相信。这样的人,其实很可爱。


 

第二个层次:自以为是,庸人自扰之。不少的人,打破头也想挤入这个层次。当大家不再需要为生存而烦恼了,人们就开始自己寻找新的烦恼题材。一些以前“老封建”才相信的东西被青壮年奉为金科玉律;一些原来只在某些地域或行业里存在的风俗现在开始在全国人民中流行;一些原本是锦上添花的点缀现在变成了必不可少的要求了。现在不少人刻意要去“学习”各种规矩,凡事前怕狼后怕虎的,搞得自己象是遗老遗少,实在是自寻烦恼。


 

第三个层次:顺势而为,百无禁忌。理解这个层次,首先要理解“天人合一”这四个字。人是自然界的一部分,顺应天时地利是很基本的。如果与大环境反着干,再怎么讲究也很难得到好结果。但同时,既然人与自然界是一体的,人的因素也就是大势的一部分,人的精神力量比任何“讲究”都强大,是可以改变大环境的。想通了这一点就会明白,关键不是在周边小环境上做局,而是强化自己的内心。


 

求人不如求己,求诸于旁门之术甚至连求人都不如。返璞归真才是正道。

 

2009年8月1日星期六

“没有用的”

记得游览玉龙雪山的时候,最后一段路程是需要徒步在海拔3000多米的高度爬n多级台阶的。导游发给每人一个小氧气罐,觉得不舒服了可以吸一下。下来的途中,我看到路边有一家三口,小孩子大概在10岁左右,表情看上去有些痛苦,父母站在他旁边,把氧气罐递到他面前让他吸氧。可是这个小孩就是不肯,他说“没有用的”。

他不是因为不难受,也不是因为自信能抗得住,而是因为觉得吸氧没用,所以拒绝父母给他的这个唯一实际的帮助。

这并非我见到的唯一一次这种行为模式,人在痛苦的时候,并非都是象溺水之人那样拚命去抓任何可以抓得到的东西,而是有时候就象这个小孩那样,拒绝甚至是来自至亲之人的帮助或建议。

知识、判断力、信任、勇气,这些是能帮助你转危为安的重要品质。而“没有用的”心理真的是不能给你任何帮助的。

2009年7月6日星期一

房地产行业的利润分析

探究房地产行业的“平均利润率”或许不具有现实意义

房地产行业跟其它行业不同,在不同的地域不同领域之间有很强的壁垒,从而导致“行业平均利润率”这个概念可能不具有现实意义。

在现实中,要想做房地产开发,首先要解决的是拿地,拿地就必须同土地所归属的政府搞好关系。一个房地产开发商很难同众多地区的政府都保持亲密关系,而一个地区的政府也不可能对所有找上门来的开发商一视同仁。所以,江苏的开发商未必能在上海的市场上拿到好的地段,而上海具有闵行区背景的开发商也未必有能力在浦东新区建设大型项目。主、客场的差别在这个行业中是非常明显的。比如深圳万科在上海各区开发的楼盘位置几乎全都处在飞机航道下面。

利润率等于收入减成本然后再除以成本,而不论房地产项目的总销售额,还是总成本,都与项目所处的地段、负责土地出让的地区政府紧密相关。于是,同为上海闵行区的房地产开发商或许在闵行区的项目上具有类似的利润率,但是这个利润率绝对不会与西安的开发商在西安获得的利润率类似,也更不会同深圳的开发商在杭州获得的利润率类似。

所以,房地产行业的区域壁垒,造成了区域同区域之间的利润率差异,也造成了主、客场的开发商之间的利润率差异。在目前的国情之下,试图研究中国房地产行业的“平均利润率”是不具有现实意义的。

房地产行业上市企业的资产收益率同其它行业比较

既然平均值不具现实意义,那么就只能对典型值进行对比。在这里我们挑选几个在各自行业里具有代表性的上市公司数据进行比较。值得提醒的是,上市公司由于存在“集团公司与上市公司之间进行利润重分配”以及“靠非主营业务支撑上市公司业绩”的现象,所以上市公司的数据也不能全信。

各行业代表性企业的净资产收益率:


2009-3-312008-12-312007-12-312006-12-31
百联股份2.57%7.72%7.69%7.31%
招商地产1.13%8.26%14.65%18.21%
中国石化3.28%8.99%18.35%20.08%
江西铜业0.73%11.01%22.78%36.85%
万科A2.35%12.65%16.55%15.39%
江铃汽车4.32%19.36%21.52%20.76%
招商银行5.12%26.51%22.42%12.32%
中国联通1.66%28.1%11.2%4.4%


从这些数据来看,房地产企业的盈利能力同其它行业企业相比,也不过如此。

对于房地产行业利润的结论

根据前面的分析,可以很容易得到以下结论:

  1. 所谓房地产市场实际上是由多个具有进入壁垒的细分市场构成的;
  2. 由于1),探究“房地产市场的整体平均利润率”不具有现实意义;
  3. 由于1),开发商之间实际上是差异化竞争,而非完全竞争,它们都可以保持较好的利润率;
  4. 具体房地产开发项目的利润率取决于该企业所开发项目的地域、同主管政府的关系等;
  5. 由于4),越是在全国遍地开发的房地产企业,越是难以获得高平均利润率;
  6. 由于4),利润率高的房地产企业一定是那些盘踞在自己主场的地头蛇式企业;
  7. 万科A的盈利能力表现是由于5)造成的,根据6)有理由认为全国各地大量的房地产开发项目的盈利能力远高于此;