当前位置:首页 > hanlp中文分词器解读
图二
用二维表来表示图一中的链表结构如下图二所示:
图三
从上图三可以看出,在二维表中,初次切分后的词组,第一次字相同的在同一行,最后一个字相同的在同一列,原来的原子在对称轴上.
对上述过程进行处理的参考源代码如下:
ICTCLAS解析
bool CSegment::BiSegment(char *sSentence, double dSmoothingPara, CDictionary &dictCore, CDictionary &dictBinary, unsigned int nResultCount) {
......
//在此处完成上图一的处理结果,生成一个链表结构
m_graphSeg.GenerateWordNet(sSentence,dictCore,true);//Generate words array
......
在生成图二所示的表结构之后,进一步生成二叉图表.
....
//Generate the biword link net
BiGraphGenerate(m_graphSeg.m_segGraph,aBiwordsNet,dSmoothingPara,dictBinary,dictCore);
....
共分享92篇相关文档