Sentiment Analysis Binary Classification 使用 Hugging Face 的 RoBERTa 模型進行微調,以實現所需的中文情感分析。 我使用 Google Colab 進行模型訓練。在程式碼中,模型儲存為 robertaModel。完成訓練後,可以將程式碼的上半部分註解掉,然後使用訓練好的模型來反覆分析不同的測試資料集。 Overview 語言:Python v3.10.12 模型:RoBERTa(Hugging Face) Run python sentiment-analysis-roberta-nlp.py Example CSV To Be Prepared 準備工作包括將所有爬取的數據整理成包含 id、title(如果沒有,留空即可,因為這不是本次訓練的目標)、comment 和 label(分別用 0 和 1 表示負面和正面)的欄位。 選擇足夠的數據來對 comment 欄位的情感進行標記,並按照所需的比例將標記好的數據分為訓練集和驗證集,未標記的數據則作為測試集。 因此,準備了三個 CSV 檔案:train.csv、valid.csv 和 test.csv,以啟動訓練過程。 train.csv id title comment label 1 軟體工程師offer請益 果斷選第一個offer 超優 1 2 軟體工程師offer請益 軟體工程師的薪水的起薪真慘 0 3 軟體工程師offer請益 都很差,再繼續投 0 4 軟體工程師offer請益 非本科這樣算不錯了! 1 valid.csv id title comment label 5 軟體工程師職業生涯 上班壓力很大 0 6 軟體工程師職業生涯 我自己是覺得滿有趣的 1 7 軟體工程師職業生涯 感覺很容易會被 AI 取代 0 8 軟體工程師職業生涯 好憂慮,競爭太激烈了 0 test.csv id title comment label 9 軟體工程師的技能要求 軟體算好上手的了 1 10 軟體工程師的技能要求 看天分,學不會就是學不會,邏輯很難 0 11 軟體工程師的技能要求 而且要持續學習,所以很辛苦 0 12 軟體工程師的技能要求 缺乏最新的技術知識可能會影響我的工作機會。 0