不知道这个什么时候才出来,:)
=======================================================
原文:http://blog.outer-court.com/archive/2006-08-03-n60.html
翻译:hidecloud
转载请注明以上信息
=======================================================
Google发布消息称:你将能订购6张包含Google?N-gram数据库的DVD用来进行研究或开发。
如果我理解得对,这意味着你将得到一个超过十亿句由五个单词组成的句子,并能按流行程度排序,例如你能用mice、milk这样的词去完成cats?like?to?eat这样的句子。
这应该对语音识别,OCR,机器翻译,拼写建议等技术有辅助作用。这个数据库将包含1300万个不同单词。
注:N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,?Chinese?Language?Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。

最新评论