Skip to content

Files

Latest commit

b972566 · Jan 28, 2025

History

History
48 lines (35 loc) · 2.85 KB

File metadata and controls

48 lines (35 loc) · 2.85 KB

Sentiment Analysis Binary Classification

使用 Hugging Face 的 RoBERTa 模型進行微調,以實現所需的中文情感分析。
我使用 Google Colab 進行模型訓練。在程式碼中,模型儲存為 robertaModel。完成訓練後,可以將程式碼的上半部分註解掉,然後使用訓練好的模型來反覆分析不同的測試資料集。

Overview

  • 語言:Python v3.10.12
  • 模型:RoBERTa(Hugging Face)

Run

python sentiment-analysis-roberta-nlp.py

Example CSV To Be Prepared

準備工作包括將所有爬取的數據整理成包含 idtitle(如果沒有,留空即可,因為這不是本次訓練的目標)、commentlabel(分別用 0 和 1 表示負面和正面)的欄位。
選擇足夠的數據來對 comment 欄位的情感進行標記,並按照所需的比例將標記好的數據分為訓練集和驗證集,未標記的數據則作為測試集。
因此,準備了三個 CSV 檔案:train.csvvalid.csvtest.csv,以啟動訓練過程。

train.csv

id title comment label
1 軟體工程師offer請益 果斷選第一個offer 超優 1
2 軟體工程師offer請益 軟體工程師的薪水的起薪真慘 0
3 軟體工程師offer請益 都很差,再繼續投 0
4 軟體工程師offer請益 非本科這樣算不錯了! 1

valid.csv

id title comment label
5 軟體工程師職業生涯 上班壓力很大 0
6 軟體工程師職業生涯 我自己是覺得滿有趣的 1
7 軟體工程師職業生涯 感覺很容易會被 AI 取代 0
8 軟體工程師職業生涯 好憂慮,競爭太激烈了 0

test.csv

id title comment label
9 軟體工程師的技能要求 軟體算好上手的了 1
10 軟體工程師的技能要求 看天分,學不會就是學不會,邏輯很難 0
11 軟體工程師的技能要求 而且要持續學習,所以很辛苦 0
12 軟體工程師的技能要求 缺乏最新的技術知識可能會影響我的工作機會。 0