mmseg4j v1.10.0的拓展分词

Java 2020-08-30 15:16:03

mmseg4j v1.10.0的拓展分词

比如英文词组amazon collection

英语数字连词,比如GH2300K(不用加词库)

中英混合词T恤,U盘,牛B等前中后英,前英后中类型的词语

数字加量词比如1.8m,2.3kg,1.5斤等(不用加词库)

带有特殊符号的词语,比如空格,冒号,斜杠等;比如 PG ,3.1 phillip lim,,a-morir,a'kin等

英语单词自动识别,比如hylo-comod

添加了停用词

提供60万词库,包括海外品牌,量词,通用词(电商词库+ sougou+公司项目中自己整理)等等
为了达到更好的分词效果,完全可以不用默认词库,自己从0开始构建适合自己项目的词库

#注意: 需要防止单词截断,因为英文目前也是基于最大匹配,而不是按照空格切分,因此需要注意截断问题。