-
Notifications
You must be signed in to change notification settings - Fork 7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
【数据】若分词效果不好,请将效果不好的文本数据提交至这里 #4
Comments
本赛季初期洛杉矶湖人一度霸占西部战绩榜首,但是随着爵士太阳等队的崛起,加上两大核心巨星的先后受伤,湖人目前战绩已经跌到了西部第四,如果继续输球随时有可能跌出西部前八的可能。对此湖人阵容迎来了新变化,三届全明星跌出轮换,德拉蒙德迎首秀。今日来自记者Shams的信息,在德拉蒙德加盟湖人之后,一场比赛会征战30多分钟,而且会马上成为球队的首发中锋,而球队此前的首发中锋马克-加索尔不仅仅会成为替补,也很有可能掉出湖人轮换阵容。作为昔日NBA最优秀的内线球员之一,在灰熊效力时期的马克-加索尔,先后入选三次全明星阵容,还入过最佳阵容一阵,获得过最佳防守球员,是灰熊队攻守两端的真正核心。休赛季湖人一一份两年合同签下小加索尔,也成为了湖人球迷口中美妙的引援。但是本赛季开始至今,小加索尔已经彻底成了毒瘤一般的存在,只要小加索尔上场,湖人就会陷入被动。在全明星之前,湖人队给了他足够的上场时间去找状态,但是结果是非常遗憾的,小加索尔在场均上场20分钟的情况下,只贡献出4.8分+4.1篮板,不但攻不进守不住,就连曾经最擅长的一手策应也稀烂,场均只有2个助攻,还有1次失误,表现辣眼无比。随着德拉蒙德的到来,他将会和哈雷尔分配中锋位置的时间,小加索尔跌出轮换也是在情理之中。那么德拉蒙德何时能迎来湖人生涯的首秀呢?明天早上十点,湖人主场将对阵雄鹿,德拉蒙德将成为首发出战,但是对于很久没打比赛的他来说,需要几场比赛时间来找状态。 |
['本', '赛季', '初期', '洛杉矶', '湖人', '一度', '霸占', '西部', '战绩', '榜首', ',', '但是', '随着', '爵士', '太阳', '等队', '的', '崛起', ',', '加上', '两', '大', '核心', '巨星', '的', '先后', '受伤', ',', '湖人', '目前', '战绩', '已经', '跌', '到', '了', '西部', '第四', ',', '如果', '继续', '输球', '随时', '有', '可能', '跌', '出', '西部', '前', '八', '的', '可能', '。', '对', '此', '湖人', '阵容', '迎来', '了', '新', '变化', ',', '三', '届', '全', '明星', '跌', '出', '轮换', ',', '德拉蒙德', '迎', '首', '秀', '。', '今日', '来自', '记者', 'Shams', '的', '信息', ',', '在', '德拉蒙德', '加盟', '湖人', '之后', ',', '一', '场', '比赛', '会', '征战', '30', '多', '分钟', ',', '而且', '会', '马上', '成为', '球队', '的', '首发', '中锋', ',', '而', '球队', '此前', '的', '首发', '中锋', '马克-加索尔', '不仅仅', '会', '成为', '替补', ',', '也', '很', '有', '可能', '掉', '出', '湖人', '轮换', '阵容', '。', '作为', '昔日', 'NBA', '最', '优秀', '的', '内线', '球员', '之一', ',', '在', '灰熊', '效力', '时期', '的', '马克-加索尔', ',', '先后', '入选', '三', '次', '全明星', '阵容', ',', '还入', '过', '最佳', '阵容', '一阵', ',', '获得', '过', '最佳', '防守', '球员', ',', '是', '灰熊队', '攻守', '两端', '的', '真正', '核心', '。', '休赛季', '湖人', '一', '一', '份', '两', '年', '合同', '签', '下', '小加索尔', ',', '也', '成为', '了', '湖人', '球迷', '口中', '美妙', '的', '引援', '。', '但是', '本', '赛季', '开始', '至', ‘今', ',', '小加索尔', '已经', '彻底', '成', '了', '毒瘤', '一般', '的', '存在', ',', '只要', '小加索尔', '上场', ',', '湖人', '就', '会', '陷入', '被动', '。', '在', '全明星', '之前', ',', '湖人队', '给', '了', '他', '足够', '的', '上场', '时间', '去', '找', '状态', ',', '但是', '结果', '是', '非常', '遗憾', '的', ',', '小加索尔', '在', '场均', '上场', '20', '分钟', '的', '情况', '下', ',', '只', '贡献', '出', '4.8', '分', '+', '4.1', '篮板', ',', '不但', '攻', '不', '进', '守', '不', '住', ',', '就', '连', '曾', '经', '最', '擅长', '的', '一手', '策应', '也', '稀烂', ',', '场均', '只', '有', '2', '个', '助攻', ',', '还有', '1', '次', '失误', ',', '表现', '辣眼', '无比', '。', '随着', '德拉蒙德', '的', '到来', ',', '他', '将', '会', '和', '哈雷尔', '分配', '中锋', '位置', '的', '时间', ',', '小加索尔', '跌', '出', '轮换', '也', '是', '在', '情理', '之中', '。', '那么', '德拉蒙德', '何时', '能', '迎来', '湖人', '生涯', '的', '首秀', '呢', '?', '明天', '早上', '十点', ',', '湖人', '主场', '将', '对阵', '雄鹿', ',', '德拉蒙德', '将', '成为', '首发', '出战', ',', '但是', '对于', '很久', '没', '打', '比赛', '的', '他', '来说', ',', '需要', '几', '场', '比赛', '时间', '来', '找', '状态', '。'] |
import jiojio
jiojio.init(cws_rule=True, pos=True, pos_rule=True)
text2 = "去年,我公司完成了天使轮融资,预计今年6月完成A轮融资"
words_tags = jiojio.cut(text2)
print(words_tags)
天使轮,A轮这两个分词有点问题 |
import jiojio
jiojio.init()
s = ... #上面的一段话
' | '.join(jiojio.cut(s)) 分词结果:
总体上效果还是满意的,最大的问题是同一语段中分词的不一致性,如上面加粗的”栅极“和”半导体膜“所示,前后分词不一致,这对我做专利文本分析会造成一定的困扰。另外,”所述“在该情形下分一个词会更好。 当然,上述两个问题的都可以添加用户词典解决。但是想了解一下同一文本中前后分词不一致的原因。 另外,因为专利领域的表达具有特殊性,所以想自己训练个模型,但是目前说明文档中对于自己训练模型的介绍有限。有空的话还烦请多做些说明。 再次感谢这一个优秀的中文分词库! |
爬取某某公司员工数量 |
这种问题的原因就是“栅极”的上下文不一样,前后字词不同,导致特征不同,结果也就不一样。 想要自己训练的话,需要有充足的 cpu 核,因为这个不依赖 GPU,自训练需要高质量的数据,成本还是比较高的。如果你感兴趣, 库里有 training.py 文件可以用于训练。当然,可能你在执行的时候遇到一些bug。 我可以提供付费有偿指导。 |
“栅极”是啥
super☆boy
***@***.***
…------------------ 原始邮件 ------------------
发件人: ***@***.***>;
发送时间: 2023年6月28日(星期三) 下午4:37
收件人: ***@***.***>;
抄送: ***@***.***>; ***@***.***>;
主题: Re: [dongrixinyu/jiojio] 【数据】若分词效果不好,请将效果不好的文本数据提交至这里 (Issue #4)
这种问题的原因就是“栅极”的上下文不一样,前后字词不同,导致特征不同,结果也就不一样。
想要自己训练的话,需要有充足的 cpu 核,因为这个不依赖 GPU,自训练需要高质量的数据,成本还是比较高的。如果你感兴趣,
库里有 training.py 文件可以用于训练。当然,可能你在执行的时候遇到一些bug。
我可以提供付费有偿指导。
—
Reply to this email directly,view it on GitHub, orunsubscribe.
You are receiving this because you commented.Message ***@***.***与>
|
'3.0km/h,4.00km/h,3.15km/h,3.025km/h' -> '3.0 km / h , 4.00 km / h , 3.15 km / h , 3.025 km / h'
The text was updated successfully, but these errors were encountered: