当前位置:首页 > hanlp中文分词器解读
中文分词器解析
hanlp分词器接口设计:
提供外部接口:
分词器封装为静态工具类,并提供了简单的接口
标准分词 标准分词是最常用的分词器,基于HMM-Viterbi实现,开启了中国人名识别和音译人名识别,调用方法如下:
List
HanLP.segment 其实是对 StandardTokenizer.segment 的包装。
/** * 分词 *
* @param text 文本 * @return切分后的单词 */
publicstaticList
returnStandardTokenizer.segment(text.toCharArray()); } /**
* 创建一个分词器
* 这是一个工厂方法
* 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器
* @return一个分词器 */
publicstaticSegmentnewSegment() { returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡 }
publicclassStandardTokenizer { /**
* 预置分词器 */
publicstaticfinalSegmentSEGMENT = HanLP.newSegment(); /** * 分词
* @param text 文本 * @return分词结果 */
publicstaticList
returnSEGMENT.seg(text.toCharArray()); } /** * 分词
* @param text 文本 * @return分词结果 */
publicstaticList
returnSEGMENT.seg(text); } /**
* 切分为句子形式 * @param text 文本
共分享92篇相关文档