云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > hanlp中文分词器解读 - 图文

hanlp中文分词器解读 - 图文

  • 62 次阅读
  • 3 次下载
  • 2025/5/4 9:18:04

* @return句子列表 */

publicstaticList>seg2sentence(Stringtext) {

returnSEGMENT.seg2sentence(text); } }

publicstaticSegmentnewSegment() {

returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡 } /**

* Viterbi分词器

* 也是最短路分词,最短路求解采用Viterbi算法 *

* @authorhankcs */

publicclassViterbiSegmentextendsWordBasedGenerativeModelSegment

NLP分词 NLP分词 NLPTokenizer 会执行全部命名实体识别和词性标注。,调用方法如下: List termList = NLPTokenizer.segment(\中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程\); System.out.println(termList); NLP分词 NLPTokenizer 会执行全部命名实体识别和词性标注。 ? 所以速度比标准分词慢,并且有误识别的情况。

?

publicclassNLPTokenizer { /**

* 预置分词器 */

publicstaticfinalSegmentSEGMENT =

HanLP.newSegment().enableNameRecognize(true).enableTranslatedNameRecognize(true).enableJapaneseNameRecognize(true).enablePlaceRecognize(true).enableOrganizationRecognize(true).enablePartOfSpeechTagging(true);

publicstaticListsegment(Stringtext) {

returnSEGMENT.seg(text); } /** * 分词

* @param text 文本 * @return分词结果 */

publicstaticListsegment(char[]text) {

returnSEGMENT.seg(text); } /**

* 切分为句子形式 * @param text 文本 * @return句子列表 */

publicstaticList>seg2sentence(Stringtext)

{

returnSEGMENT.seg2sentence(text); } }

索引分词 索引分词 IndexTokenizer 是面向搜索引擎的分词器,能够对长词全切分,另外通过 term.offset 可以获取单词在文本中的偏移量。调用方法如下: ListtermList=IndexTokenizer.segment(\主副食品\); for(Termterm:termList) {

System.out.println(term+\

[\+term.offset+\+(term.offset+term.word.length())+\); }

publicclassIndexTokenizer { /**

* 预置分词器 */

publicstaticfinalSegmentSEGMENT = HanLP.newSegment().enableIndexMode(true); publicstaticListsegment(Stringtext) {

returnSEGMENT.seg(text); } /** * 分词

* @param text 文本 * @return分词结果 */

publicstaticListsegment(char[]text) {

returnSEGMENT.seg(text); } /**

* 切分为句子形式 * @param text 文本 * @return句子列表 */

publicstaticList>seg2sentence(Stringtext) {

returnSEGMENT.seg2sentence(text); } }

繁体分词 繁体分词 TraditionalChineseTokenizer 可以直接对繁体进行分词,输出切分后的繁体词语。调用方法如下:

ListtermList=TraditionalChineseTokenizer.segment(\大衛貝克漢不僅僅是名著名球員,球場以外,其妻為前辣妹合唱團成員維多利亞·碧咸,亦由於他擁有突出外表、百變髮型及正面的形象,以至自己品牌的男士香水等商品,及長期擔任運動品牌Adidas的代言人,因此對大眾傳播媒介和時尚界等方面都具很大的影響力,在足球圈外所獲得的認受程度可謂前所未見。\); System.out.println(termList);

搜索更多关于: hanlp中文分词器解读 - 图文 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

* @return句子列表 */ publicstaticListseg2sentence(Stringtext) { returnSEGMENT.seg2sentence(text); } } publicstaticSegmentnewSegment() { returnnewViterbiSegment();// Viterbi分词器是目前效率和效果的最佳平衡 } /** * Viterbi分词器 * 也是最短路分词,最短路求解采用Viterbi算法 * * @authorhankcs */ publicclassViterbiSegmentextendsWordBasedGenerativeModelSe

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com