Mar 19

晚上从公司出来时,已经比较晚,没有公交车了。空气凉凉的,决定走回去,想起前年夏天,天天晚上这样悠闲地走回去。现在已经是快要离开的人了,这一年多,学到了很多,更懂得了很多。

路上无事,边走边和朋友打电话闲聊,调侃他们每个周末泡在一起学法语。相隔千里,相隔经年,那份熟悉依然在。要不是前些日子韦厮跑来玩,都觉得遥远了。一路走着,凉凉的是丁丁点点的雨星,不是下雨,而是像厚重的雾天般湿润。正聊着,忽然醒觉衣服沉重起来,原来雨已经开始下了,淅淅沥沥的春雨!想起白天时,深圳的朋友急切地问:北京,雨否雨否?想起有人提过,江南的春雨已经淅淅沥沥下很久了,湿润的墙角苔藓,屋檐滴滴答答挂着的雨季……正是这个应该的季节,春雨和绿色,还有花朵怒放。

天街小雨润如酥, 草色遥看近却无。温度逐渐回暖,游泳池的水也不像上周那么寒冷,草坪返青,桃花开放。很想买一个单反数码相机,回头看一下有没有预算。据说日本和香港那边便宜不少,回头问问朋友看。

Mar 16

今天第一次下水,现在气温还比较低,刚下水的时候,大家都喊冷冷冷… :)

主要学习了基本知识,水中行走、漂浮、各种跳水等等。感冒还没有完全好,不是很适应,鼻子耳孔嘴巴都进水了。回来后,疲乏的不行,一下子睡了n久~

上午有个突尼斯迦太基大学的访问团,参加了在主楼实验室和他们的交流。本来怕自己英语太烂,结果发现说非洲语和法语的他们,英语口语更烂,哈哈。很多法语使用者,会无意中用法语的发音方式念英语。还有个搞笑的地方,他们用“你好”和我们打招呼,我于是用法语打招呼,一哥们喜出望外,叽哩咕噜一通法语,只懂两句法语的我,马上就傻眼了….

Mar 16

前些天写过一篇文章,解释Google使用UTF-8编码它的URL,而百度使用GB2312编码其URL。感谢某位网友巧妙地使用Python来找出这个答案。

今天发现,其实,这个答案是不正确的,百度也使用UTF-8来编码,只不过缺省的是GB2312而已。怎么确定是那种编码呢?看下面参数中的ie部分,它可能是utf-8、或者gb2312、或者没有:

http://www.baidu.com/s?ie=gb2312&bs=ajax+%D1%A7%CF%B0&sr=&z=&cl=3&f=8&wd=ajax&ct=0

Mar 06

美好的世界中,懒人总有选择。对我这样一个Python新手,没有足够的闲暇时间,去读完Python中的XML处理模块,那么最好的方式,就是利用已有的只是囖。那么最直接的方式,就是利用.NET的类库,这方面的工具就是:

IronPython
http://www.codeplex.com/IronPython

Python for .NET
http://pythonnet.sourceforge.net/

Python这个脚本语言有很灵活的选择,比如你熟悉Java,可以考虑JPython,^_^

Mar 04

我用的Nokia手机是香港水货,刚买回来、以及刷新了软件以后都需要设置彩信、WAP、GPRS,然后才能收发短信和上网。网上有很多设置步骤详解,不过最简单的就是通过Nokia官方网站进行设置:

http://www.nokia.com.cn/cn/support/setup/setting.shtml

相应的设置会发到你的手机,接受应用就行了。


顺便分享两个Nokia 6233的资源网站,里面有各种软件、电子书、待机图片、主题等下载:

http://gztg.ys168.com/
http://nokia6233.ys168.com/

Mar 04

在写的一个程序,用Python搜集数据,用XML做为重要的中间数据存储方式,出了很多问题。尤其是用VS 2005打开一个2M多的XML文件后,破破的本本就焊住了近一个小时…..最后,发现好多问题,都源于XML中需要转义的字符!晕~~

?

?


XML CDATA

在XML文档中的所有文本都会被解析器解析。

只有在CDATA部件之内的文本会被解析器忽略。


解析数据

XML 解析器通常情况下会处理XML文档中的所有文本。

当XML元素被解析的时候,XML元素内部的文本也会被解析:

<message>This text is also parsed</message>

XML解析器这样做的原因是XML元素内部可能还包含了别的元素,象下面的例子,name元素内部包含了first和last两个元素:

<name><first>Bill</first><last>Gates</last></name>

解析器会认为上面的代码是这样的:

<name>
<first>Bill</first>
<last>Gates</last>
</name>


转义字符

不合法的XML字符必须被替换为相应的实体。

如果在XML文档中使用类似”<” 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。所以不应该象下面那样书写代码:

<message>if salary < 1000 then</message>

为了避免出现这种情况,必须将字符”<” 转换成实体,象下面这样:

<message>if salary &lt; 1000 then</message>

下面是五个在XML文档中预定义好的实体:

&lt; < 小于号
&gt; > 大于号
&amp; &
&apos; 单引号
&quot; 双引号

实体必须以符号”&”开头,以符号”;”结尾

注意: 只有”<” 字符和”&”字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。


CDATA部件

在CDATA内部的所有内容都会被解析器忽略。

如果文本包含了很多的”<”字符和”&”字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。

一个 CDATA 部件以”<![CDATA[" 标记开始,以"]]>“标记结束:

<script>
<![CDATA[
function matchwo(a,b)
{
if (a < b && a < 0) then
{
return 1
}
else
{
return 0
}
}
]]>
</script>

在前面的例子中,所有在CDATA部件之间的文本都会被解析器忽略。

CDATA注意事项:

CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符”]]>” 或者”<![CDATA[" ,将很有可能出错哦。

同样要注意在字符串"]]>“之间没有空格或者换行符。

Mar 01

需要编写从网页中抽取信息的程序,看了两天资料。整理一些有用的链接:

XPath Tutorial:

http://www.zvon.org/xxl/XPathTutorial/General/examples.html

HTML Tidy Library Project
http://tidy.sourceforge.net/

XPointer Tutorial
http://www.zvon.org/xxl/XPointerTutorial/Output/index.html

[收集Web数据抽取的相关文档]

从半结构化文本与自由格式文本中学习信息抽取规则
Learning Infomation Extraction Rules For
Semi-Structured and Free Text
?

作者Stephen
Soderland为华盛顿州立大学计算机科学系教授。本文的被引用次数高达50多次。论文以信息抽取系统WHISK系统为例,描述了如何以机器学习的方式,利用小规模样本训练系统自动学习目标文本的抽取模式,从而实现自动化信息抽取的一种技术。这种技术不但极具启发意义而且很有实用价值。

?
从WWW中抽取模式与关系
Extracting Patterns and Relations from the
World Wide Web
?
这是Sergey
Brin的另外一篇力作。该论文提出一种叫DIPRE的方法,利用机器学习理论从大量文本中自动提取模式与关系。文中利用这种方法从互联网上分散的文本中提取图书信息,即作者,标题二元组。结果仅用了5本书的样本集,就自动扩展到了15,000本书,而且有些书是最大的网上书店亚马逊也没有的。
?
利用标准的XML技术进行有效的Web数据抽取
Effective Web Data Extraction with Standard
XML Technologies
?
作者是IBM Almaden研究中心的Jussi
Myllymaki博士。文中描述了一种叫ANDES的,首先把HTML文档转化为XHTML文档,然后再利用XML与XSLT进行数据抽取的软件框架。
?
演示:一种健壮的具有高召回率与高精度的Web数据抽取技术
Demonstration: A Robust Web Data-Extraction
Technique With High Recall and Precision
?
文中图文并茂地演示了如何自动化地从半结构化的HTML页面中抽取指定数据到数据库中。
?
利用XML技术高效地进行Web数据抽取
Effective Web Data Extraction with Standard
XML Technologies
?

作者Jussi Myllymaki
为IBM研究员,在文中提出了一种先将HTML转变为XHTML,然后利用XSLT抽出XHTML中的数据,最后再利用XSLT精化结果,形成最后的XML输出数据。
?
Web数据抽取工具综述
A Brief Survey of Web Data Extraction
Tools
?

作者将目前的几种Web数据抽取工具按照六种分类:Wrapper开发语言,可感知HTML的工具,基于NLP的工具,Wrapper归纳工具,基于建模的工具,基于语义的工具依次介绍了各Web数据抽取工具的工作原理与特点,并且比较了它们的一般输出质量。
?
信息抽取概述
网上信息抽取技术纵览–信息抽取概述 陈鸿标 译

信息抽取原来的目标是从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如新闻报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。

本章首先介绍信息抽取领域的发展。第2.1.节比较了信息抽取和信息检索的区别;第2.2.节介绍IE的历史。接下来两节解释评价IE系统的指标和常用的两派技术方法。信息抽取技术所处理的文本类型将在第2.5.节中说明。第2.6.节描述信息抽取技术可利用的网页特征。

?
?基于可视线索的HTML页面分析
HTML Page Analysis Based on Visual
Cues
?
作者为微软亚洲研究院的张玉东与张亚勤,文中提出根据网页内容中的并行结构的子标题或者记录具有相似的结构这一特点,可以应用一种模式检测算法来检测出目标对象,从而进行HTML文档的语义结构抽取。
?
利用Lixto进行可视化的信息抽取
Visual Web Information Extraction with
Lixto
?
作者分析了Lixto抽取系统的架构,介绍了一种半自动化的Wrapper生成技术与自动化Web信息抽取技术。
?
信息抽取研究综述
Research On Information Extraction: A
Survey
? 文本信息抽取?
本文出自北京大学计算机科学与技术系,综述了信息抽取的一些基本概念。
Mar 01
  • 存款准备金是指金融机构为保证客户提取存款和资金清算需要而准备的在中央银行的存款。中央银行要求的存款准备金占其存款总额的比例就是存款准备金率。中央银行通过调整存款准备金率,可以影响金融机构的信贷扩张能力,从而间接调控货币供应量。
  • 金融机构必须将存款的一部分缴存在中央银行,这部分存款叫做存款准备金;存款准备金占金融机构存款总额的比例则叫做存款准备金率。

  
要理解存款准备金,先来了解一点常识。这个社会上总是会有一些人有闲钱,一些人等着钱用。钱放在家里是不会变多的,有闲钱的人就会想办法使钱变多,办法是借给等着钱用的人然后收取利息。利息就是用了别人的钱所付的钱。但是,有闲钱的人并不一定知道谁是等着钱用的人,同样等着钱用的人也并一定知道谁是有闲钱的人。为了便于这两种人能借出和贷到钱,银行就出现了,这就是银行的主要作用之一:有闲钱的人并不需要知道谁缺钱花,等着钱用的人也并不需要知道谁手里有闲钱。

  
有了银行之后,有闲钱的人会把闲钱存到银行里(当然现实生活中人们并不会把所有的闲钱存到银行里)。假设这个社会总共只有100块闲钱,这100块闲钱随时随地都能提出来。但是,那些有闲钱的人不会突然同时需要钱用,从而一次性把100块钱全取完,所以银行没必要把100块钱全放在银行的金库里以备老百姓提款。一般来说,银行只要放一部分钱让老百姓能随时随地提到钱就行了,剩下的钱贷给那些等着钱用的人。贷款人付给银行的利息(利息就是用了别人的钱所付的钱,这里贷款人用了银行的钱)和银行付给存款人的利息(利息就是用了别人的钱所付的钱,这里银行用了存款人的钱)之差就是银行的利润来源了。银行老板决定:留下10块钱备提款用,剩下90块钱全贷出去。这10块钱就叫存款准备金,存款总共100块钱,那么存款准备金占其中的10%,这10%就叫存款准备金率了。

?
有人会说,怎么留这么少啊?注意,银行也是一个企业,起码它也要做到收支平衡。假设付给存款人的利息率是10%,那么它要付给存款人10块钱利息,为了做到收支平衡,贷出去的款所得的利息至少是10块钱。如果存款准备金太高,比如100块钱有90块钱用作了存款准备金,那么能贷出去的钱就只有10块钱,而这10块钱要得到10块钱的利息,利息率只能是100%。同理,货款的人起码也要做到收支平衡,贷到这100%的10块钱后能投资什么行业利润才能超过100%呢?估计只有贩毒、走私军火这种买卖了。事实上,上面的推论还是理想化了,无论银行老板还是贩毒老大,还都要付给职员或弟兄工资,还有其它经营费用等等。即使赤手空拳的劫匪也要把他抢到的钱中的一部分用来买饭吃,不然下回被劫的说不定是谁了。那么,这么高的利息率的贷款在这个社会上存在吗?答案是存在,那就是高利贷。你的亲人生了病要移肾,你又是一个穷人,银行怕你还不起不贷给你,你只好去借高利贷了。代价可能是答应黑帮去贩毒,去走私军火。所以有高利贷的地方总是能看到贫穷、黑社会和犯罪的身影。

  
上面说到,银行留了10块钱作存款准备金,90块钱贷了出去。贷了这90块钱的人要花吧(如果他又把这笔钱存入银行,那他脑筋有问题),比如他用这90块钱买了你一辆车,于是你收到了90块钱。得到这90块钱,很有可能你不会马上花掉,并且很有可能你会把它先放在银行一段时间,于是银行又得到了90块存款。按照规矩,银行从这90块钱中又留了10%作存款准备金(这是备存入90块钱的人提款留的),即9块钱,剩下81块钱又可以贷出去了,然后又有人存入81块钱,留10%即
8.1块钱作存款准备金,以此类推。对于第一次存入100块钱的人来说,他们有100块钱的货币可以用,因为随时随地都能提到,虽然实际上银行为他们提款只准备了10块钱;对于第二次存入90块钱的人来说,他们有90块钱的货币可以用,因为也是随时随地都能提到,虽然实际上银行为他们提款只准备了9块钱,以此类推。

  
现在我们可以看到,我们的钱变多了:甲有100块可随时随地提到的钱,乙有90块可随时随地提到的钱,……。那么甲、乙、丙、丁、……现在一共有多少钱了呢?答案是1000块。有兴趣的人可以用数学的方法算一下。上文提到了,实际上这个社会上只有100块的闲钱,经过银行魔术般的变幻,变成了1000块,神奇吧?假如把存款准备金提高到20块,即存款准备金率提高到20%,数字则变成500。这个数字其实是闲钱总量除以存款准备金率得来的。100除10%等于1000,100除以20%等于500。由此可见,只要改变存款准备金率,这个社会上的闲钱的总量就能得到有效调控。在银行方面来看,存款准备金率提高就是可贷出去的资金少了,原来10%的时候能贷出去90块,调为20%后就只能贷出去80块了,而原来10%的时候,再次存入的90块钱能贷出去81块,调为20%后,再次存入的80块钱只能贷出去64块钱,以此类推,从总量上来看银行能贷出去的钱就大大减少了。

  
当然,这只是理论上的原理,实际情况涉及利息、政策、金融稳定,比这复杂得多。
?
说到这里,想提一下挤兑。挤兑就是大家挤到银行里去取钱。比如哪天大家听了一些小道消息觉得放在工行里的钱不保险,于是纷纷跑到工行取钱。正如上面所提到的,工行里的金库里只留了小部分钱以备提款,没那么多钱供大家提,大家提不到钱,于是愤怒无比,打、砸、抢,社会岂不要乱套?我想这很难发生,在最严重的后果出现之前,周小川同志肯定会召开新闻发布会,通过新闻联播等节目,表情严肃地说:”……中国工商银行是国有四大银行,中国人民银行将尽最大的努力保持金融系统的稳定……”等等类似官话。这话的深层意思是:请大家放心,工行不会有问题的,大家不用去提钱了,真要去提的话,央行是一定会挺工行的。

  
[转]