当前位置:首页 > hanlp中文分词器解读 - 图文
* @return句子列表 */
publicstaticList>seg2sentence(Stringtext) {
returnSEGMENT.seg2sentence(text); } }
publicstaticSegmentnewSegment() {
returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡 } /**
* Viterbi分词器
* 也是最短路分词,最短路求解采用Viterbi算法 *
* @authorhankcs */
publicclassViterbiSegmentextendsWordBasedGenerativeModelSegment
NLP分词 NLP分词 NLPTokenizer 会执行全部命名实体识别和词性标注。,调用方法如下: List
?
publicclassNLPTokenizer { /**
* 预置分词器 */
publicstaticfinalSegmentSEGMENT =
HanLP.newSegment().enableNameRecognize(true).enableTranslatedNameRecognize(true).enableJapaneseNameRecognize(true).enablePlaceRecognize(true).enableOrganizationRecognize(true).enablePartOfSpeechTagging(true);
publicstaticList
returnSEGMENT.seg(text); } /** * 分词
* @param text 文本 * @return分词结果 */
publicstaticList
returnSEGMENT.seg(text); } /**
* 切分为句子形式 * @param text 文本 * @return句子列表 */
publicstaticList>seg2sentence(Stringtext)
{
returnSEGMENT.seg2sentence(text); } }
索引分词 索引分词 IndexTokenizer 是面向搜索引擎的分词器,能够对长词全切分,另外通过 term.offset 可以获取单词在文本中的偏移量。调用方法如下: List
System.out.println(term+\
[\+term.offset+\+(term.offset+term.word.length())+\); }
publicclassIndexTokenizer { /**
* 预置分词器 */
publicstaticfinalSegmentSEGMENT = HanLP.newSegment().enableIndexMode(true); publicstaticList
returnSEGMENT.seg(text); } /** * 分词
* @param text 文本 * @return分词结果 */
publicstaticList
returnSEGMENT.seg(text); } /**
* 切分为句子形式 * @param text 文本 * @return句子列表 */
publicstaticList>seg2sentence(Stringtext) {
returnSEGMENT.seg2sentence(text); } }
繁体分词 繁体分词 TraditionalChineseTokenizer 可以直接对繁体进行分词,输出切分后的繁体词语。调用方法如下:
List
共分享92篇相关文档