分詞和詞性標注

介紹:

中文分詞指的是將連續的漢字序列切分成一個個單獨的詞。搜狗云分詞系統包括中文分詞與詞性標注。

主要特點:

采用了基于漢字標注的分詞方法,主要使用了線性鏈鏈CRF(Linear-chain CRF)模型。

詞性標注模塊主要基于結構化線性模型(Structured Linear Model)

分詞精度:

使用國家語委語料庫所開放的2000萬字漢語語料,其詞性標注集符合《信息處理用現代漢語詞類標記規范》(GB/T 20532—2006)。其中1800萬字作為訓練集,220萬字作為測試集。在該集合上進行封閉測試,分詞精度可達:F1 = 97.03%。

詞性標注精度:

訓練和測試集同上。封閉測試精度:96.08%

在線演示

分詞源文:
分詞結果:

批量處理

第一步:上傳文件(100M以內的txt文件)

第二步:輸入提取碼

999真人游戏