Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【数据】若分词效果不好,请将效果不好的文本数据提交至这里 #4

Open
dongrixinyu opened this issue Sep 23, 2022 · 7 comments
Labels
enhancement New feature or request

Comments

@dongrixinyu
Copy link
Owner

'3.0km/h,4.00km/h,3.15km/h,3.025km/h' -> '3.0 km / h , 4.00 km / h , 3.15 km / h , 3.025 km / h'

@CoinCheung
Copy link

本赛季初期洛杉矶湖人一度霸占西部战绩榜首,但是随着爵士太阳等队的崛起,加上两大核心巨星的先后受伤,湖人目前战绩已经跌到了西部第四,如果继续输球随时有可能跌出西部前八的可能。对此湖人阵容迎来了新变化,三届全明星跌出轮换,德拉蒙德迎首秀。今日来自记者Shams的信息,在德拉蒙德加盟湖人之后,一场比赛会征战30多分钟,而且会马上成为球队的首发中锋,而球队此前的首发中锋马克-加索尔不仅仅会成为替补,也很有可能掉出湖人轮换阵容。作为昔日NBA最优秀的内线球员之一,在灰熊效力时期的马克-加索尔,先后入选三次全明星阵容,还入过最佳阵容一阵,获得过最佳防守球员,是灰熊队攻守两端的真正核心。休赛季湖人一一份两年合同签下小加索尔,也成为了湖人球迷口中美妙的引援。但是本赛季开始至今,小加索尔已经彻底成了毒瘤一般的存在,只要小加索尔上场,湖人就会陷入被动。在全明星之前,湖人队给了他足够的上场时间去找状态,但是结果是非常遗憾的,小加索尔在场均上场20分钟的情况下,只贡献出4.8分+4.1篮板,不但攻不进守不住,就连曾经最擅长的一手策应也稀烂,场均只有2个助攻,还有1次失误,表现辣眼无比。随着德拉蒙德的到来,他将会和哈雷尔分配中锋位置的时间,小加索尔跌出轮换也是在情理之中。那么德拉蒙德何时能迎来湖人生涯的首秀呢?明天早上十点,湖人主场将对阵雄鹿,德拉蒙德将成为首发出战,但是对于很久没打比赛的他来说,需要几场比赛时间来找状态。

@dongrixinyu dongrixinyu changed the title 分词效果不好的数据 【数据】若分词效果不好,请将效果不好的文本数据提交至这里 Oct 14, 2022
@dongrixinyu dongrixinyu added the enhancement New feature or request label Oct 14, 2022
@dongrixinyu
Copy link
Owner Author

['本', '赛季', '初期', '洛杉矶', '湖人', '一度', '霸占', '西部', '战绩', '榜首', ',', '但是', '随着', '爵士', '太阳', '等队', '的', '崛起', ',', '加上', '两', '大', '核心', '巨星', '的', '先后', '受伤', ',', '湖人', '目前', '战绩', '已经', '跌', '到', '了', '西部', '第四', ',', '如果', '继续', '输球', '随时', '有', '可能', '跌', '出', '西部', '前', '八', '的', '可能', '。', '对', '此', '湖人', '阵容', '迎来', '了', '新', '变化', ',', '三', '届', '全', '明星', '跌', '出', '轮换', ',', '德拉蒙德', '迎', '首', '秀', '。', '今日', '来自', '记者', 'Shams', '的', '信息', ',', '在', '德拉蒙德', '加盟', '湖人', '之后', ',', '一', '场', '比赛', '会', '征战', '30', '多', '分钟', ',', '而且', '会', '马上', '成为', '球队', '的', '首发', '中锋', ',', '而', '球队', '此前', '的', '首发', '中锋', '马克-加索尔', '不仅仅', '会', '成为', '替补', ',', '也', '很', '有', '可能', '掉', '出', '湖人', '轮换', '阵容', '。', '作为', '昔日', 'NBA', '最', '优秀', '的', '内线', '球员', '之一', ',', '在', '灰熊', '效力', '时期', '的', '马克-加索尔', ',', '先后', '入选', '三', '次', '全明星', '阵容', ',', '还入', '过', '最佳', '阵容', '一阵', ',', '获得', '过', '最佳', '防守', '球员', ',', '是', '灰熊队', '攻守', '两端', '的', '真正', '核心', '。', '休赛季', '湖人', '一', '一', '份', '两', '年', '合同', '签', '下', '小加索尔', ',', '也', '成为', '了', '湖人', '球迷', '口中', '美妙', '的', '引援', '。', '但是', '本', '赛季', '开始', '至', ‘今', ',', '小加索尔', '已经', '彻底', '成', '了', '毒瘤', '一般', '的', '存在', ',', '只要', '小加索尔', '上场', ',', '湖人', '就', '会', '陷入', '被动', '。', '在', '全明星', '之前', ',', '湖人队', '给', '了', '他', '足够', '的', '上场', '时间', '去', '找', '状态', ',', '但是', '结果', '是', '非常', '遗憾', '的', ',', '小加索尔', '在', '场均', '上场', '20', '分钟', '的', '情况', '下', ',', '只', '贡献', '出', '4.8', '分', '+', '4.1', '篮板', ',', '不但', '攻', '不', '进', '守', '不', '住', ',', '就', '连', '曾', '经', '最', '擅长', '的', '一手', '策应', '也', '稀烂', ',', '场均', '只', '有', '2', '个', '助攻', ',', '还有', '1', '次', '失误', ',', '表现', '辣眼', '无比', '。', '随着', '德拉蒙德', '的', '到来', ',', '他', '将', '会', '和', '哈雷尔', '分配', '中锋', '位置', '的', '时间', ',', '小加索尔', '跌', '出', '轮换', '也', '是', '在', '情理', '之中', '。', '那么', '德拉蒙德', '何时', '能', '迎来', '湖人', '生涯', '的', '首秀', '呢', '?', '明天', '早上', '十点', ',', '湖人', '主场', '将', '对阵', '雄鹿', ',', '德拉蒙德', '将', '成为', '首发', '出战', ',', '但是', '对于', '很久', '没', '打', '比赛', '的', '他', '来说', ',', '需要', '几', '场', '比赛', '时间', '来', '找', '状态', '。']

@guchengxi1994
Copy link

import jiojio
jiojio.init(cws_rule=True, pos=True, pos_rule=True)
text2 = "去年,我公司完成了天使轮融资,预计今年6月完成A轮融资"
words_tags = jiojio.cut(text2)
print(words_tags)
[('去年', 't'), (',', 'w'), ('我', 'r'), ('公司', 'n'), ('完成', 'v'), ('了', 'u'), ('天使', 'n'), ('轮', 'vi'), ('融资', 'vi'), (',', 'w'), ('
预计', 'v'), ('今年', 't'), ('6月', 't'), ('完成', 'v'), ('A', 'x'), ('轮', 'n'), ('融资', 'vi')]

天使轮,A轮这两个分词有点问题

@chenyulue
Copy link

chenyulue commented Jun 15, 2023

一种半导体器件的制造方法,包括如下步骤:在衬底上形成栅极;形成覆盖所述栅极的绝缘膜;在所述绝缘膜上形成半导体膜,该半导体膜包含氧化物半导体并且与所述栅极重叠;以及通过光的辐照加热所述栅极,以在所述半导体膜中形成第一区域和第二区域,其中所述第一区域具有比所述第二区域高的结晶性并且与所述栅极重叠

import jiojio
jiojio.init()
s = ... #上面的一段话
' | '.join(jiojio.cut(s))

分词结果:

一 | 种 | 半导体 | 器件 | 的 | 制造 | 方法 | , | 包括 | 如下 | 步骤 | : | 在 | 衬底 | 上 | 形成 | 栅 | 极 | ; | 形成 | 覆盖 | 所 | 述 |栅极 | 的 | 绝缘膜 | ; | 在 | 所 | 述 | 绝 缘膜 | 上 | 形成 | 半导体膜 | , | 该 | 半导体 | 膜 | 包含 | 氧化物 | 半导体 | 并且 | 与 | 所 | 述 | 栅 | 极 | 重叠 | ; | 以及 | 通过 | 光 | 的 | 辐照 | 加热 | 所 | 述 | 栅极 | , | 以 | 在 | 所述 | 半导体膜 | 中 | 形成 | 第一 | 区 域 | 和 | 第二 | 区域 | , | 其中 | 所 述 | 第一 | 区域 | 具有 | 比 | 所 述 | 第二 | 区域 | 高 | 的 | 结晶性 | 并且 | 与 | 所 | 述 | 栅 | 极 | 重叠 |。

总体上效果还是满意的,最大的问题是同一语段中分词的不一致性,如上面加粗的”栅极“和”半导体膜“所示,前后分词不一致,这对我做专利文本分析会造成一定的困扰。另外,”所述“在该情形下分一个词会更好。

当然,上述两个问题的都可以添加用户词典解决。但是想了解一下同一文本中前后分词不一致的原因。

另外,因为专利领域的表达具有特殊性,所以想自己训练个模型,但是目前说明文档中对于自己训练模型的介绍有限。有空的话还烦请多做些说明。

再次感谢这一个优秀的中文分词库!

@1042312930
Copy link

爬取某某公司员工数量

@dongrixinyu
Copy link
Owner Author

这种问题的原因就是“栅极”的上下文不一样,前后字词不同,导致特征不同,结果也就不一样。

想要自己训练的话,需要有充足的 cpu 核,因为这个不依赖 GPU,自训练需要高质量的数据,成本还是比较高的。如果你感兴趣,

库里有 training.py 文件可以用于训练。当然,可能你在执行的时候遇到一些bug。

我可以提供付费有偿指导。

@1042312930
Copy link

1042312930 commented Jun 29, 2023 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

5 participants