欧美性猛交xxx,国产目拍亚洲精品99久久精品,www.九色在线,欧美一级免费大片

青島網站優化
    網站首頁公告信息項目報價網站優化網站制作網絡營銷經典案例空間域名VI設計實用文章聯系我們
您的位置:網站首頁 > 網站優化 > SEO基礎
SEO基礎
搜索引擎之中文分詞分析
作者: 日期:2010-4-28 21:43:14 人氣: 標簽:

有了成熟的分詞算法,是否就能容易的解決中文分詞的問題呢?事實遠非如此。中文是一種十分復雜的語言,讓計算機理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破。

  1、歧義識別

  歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因為“表面”和“面的”都是詞,那么這個短語就可以分成“表面的”和“表面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,前面舉的“和服”的例子,其實就是因為交叉歧義引起的錯誤。“化妝和服裝”可以分成“化妝和服裝”或者“化妝和服裝”。由于沒有人的知識去理解,計算機很難知道到底哪個方案正確。

  交叉歧義相對組合歧義來說是還算比較容易處理,組合歧義就必需根據整個句子來判斷了。例如,在句子“這個門把手壞了”中,“把手”是個詞,但在句子“請把手拿開”中,“把手”就不是一個詞;在句子“將軍任命了一名中將”中,“中將”是個詞,但在句子“產量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計算機又如何去識別?

  如果交叉歧義和組合歧義計算機都能解決的話,在歧義中還有一個難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個應該是詞,哪個應該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓球拍賣完了”、也可切分成“乒乓球拍賣完了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個詞。

  2、新詞識別

  新詞,專業術語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。最典型的是人名,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個詞,因為是一個人的名字,但要是讓計算機去識別就困難了。如果把“王軍虎”做為一個詞收錄到字典中去,全世界有那么多名字,而且每時每刻都有新增的人名,收錄這些人名本身就是一項巨大的工程。即使這項工作可以完成,還是會存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?

  新詞中除了人名以外,還有機構名、地名、產品名、商標名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經常使用的詞,因此對于搜索引擎來說,分詞系統中的新詞識別十分重要。目前新詞識別準確率已經成為評價一個分詞系統好壞的重要標志之一。

  中文分詞的應用

  目前在自然語言處理技術中,中文處理技術比西文處理技術要落后很大一段距離,許多西文的處理方法中文不能直接采用,就是因為中文必需有分詞這道工序。中文分詞是其他中文信息處理的基礎,搜索引擎只是中文分詞的一個應用。其他的比如機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。因為中文需要分詞,可能會影響一些研究,但同時也為一些企業帶來機會,因為國外的計算機處理技術要想進入中國市場,首先也是要解決中文分詞問題。在中文研究方面,相比外國人來說,中國人有十分明顯的優勢。

  分詞準確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內容更新的速度。因此對于搜索引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。

上一篇:網站搜索引擎優化分析
下一篇:門戶網站的搜索引擎優化策略
共有條評論信息評論信息
欄目分類
版權所有:青島網站優化|青島網站推廣|青島網絡營銷|青島SEO|鑫宇科技 Powered By 青島鑫宇網絡科技有限公司
主站蜘蛛池模板: 岗巴县| 连山| 和林格尔县| 楚雄市| 松江区| 临朐县| 禹城市| 临夏县| 新巴尔虎左旗| 青田县| 峡江县| 饶河县| 宣武区| 鸡泽县| 龙陵县| 宜君县| 鱼台县| 南木林县| 庐江县| 比如县| 搜索| 抚顺县| 庆安县| 克东县| 嘉义县| 铜梁县| 天门市| 黔西县| 北碚区| 延庆县| 安龙县| 诸城市| 山东| 启东市| 龙山县| 家居| 大竹县| 桐城市| 桃江县| 波密县| 天气|