-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathupload_to_huggingface.py
201 lines (165 loc) · 7.71 KB
/
upload_to_huggingface.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
import os
import json
import shutil
from datasets import Dataset, Audio, Image, concatenate_datasets, load_dataset
from huggingface_hub import HfApi
from dotenv import load_dotenv
def get_next_file_number():
# uploaded_to_huggingface.txt'den son numarayı al
if os.path.exists('uploaded_to_huggingface.txt'):
with open('uploaded_to_huggingface.txt', 'r', encoding='utf-8') as f:
uploaded_files = f.read().splitlines()
if uploaded_files:
# Son yüklenen dosyanın numarasını bul
last_file = uploaded_files[-1]
try:
# Dosya adından numarayı çıkar (0000001_processed_dataset.json)
last_number = int(os.path.basename(last_file).split('_')[0])
return last_number + 1
except (ValueError, IndexError):
pass
return 1
def upload_to_huggingface(json_path, video_id=None):
load_dotenv()
hf_token = os.getenv('HUGGINGFACE_TOKEN')
# Repository adını doğrudan belirle
repo_name = "sadece/sayha" # Sabit repository adı
if not repo_name:
raise ValueError("Repository adı belirtilmemiş")
if not hf_token:
raise ValueError("HUGGINGFACE_TOKEN bulunamadı. Lütfen .env dosyasını kontrol edin.")
print(f"Kullanılan repository: {repo_name}")
try:
# Repository'yi kontrol et veya oluştur
api = HfApi()
try:
api.repo_exists(repo_id=repo_name, repo_type="dataset")
print(f"Repository bulundu: {repo_name}")
except Exception as e:
print(f"Repository oluşturuluyor: {repo_name}")
api.create_repo(repo_id=repo_name, repo_type="dataset", private=False)
print(f"Yeni repository oluşturuldu: {repo_name}")
# JSON dosyasını oku
with open(json_path, 'r', encoding='utf-8') as f:
data = json.load(f)
# Yeni veriyi Hugging Face formatına dönüştür
new_dataset_dict = {
'id': [],
'audio': [],
'transcription': [],
'spectrogram': [],
'mfcc': [],
'tokens': [],
'token_ids': []
}
for idx, item in enumerate(data):
if not os.path.exists(item['audio_file']) or not os.path.exists(item['spectrogram']):
print(f"Uyarı: Dosya bulunamadı, bu örnek atlanıyor: {item['audio_file']}")
continue
new_dataset_dict['id'].append(f"{video_id}_{idx:03d}")
new_dataset_dict['audio'].append(item['audio_file'])
new_dataset_dict['transcription'].append(item['transcription'])
new_dataset_dict['spectrogram'].append(item['spectrogram'])
new_dataset_dict['mfcc'].append(item['mfcc'])
new_dataset_dict['tokens'].append(item['tokens'])
new_dataset_dict['token_ids'].append(item['token_ids'])
# Yeni veriyi dataset'e dönüştür
new_dataset = Dataset.from_dict(new_dataset_dict)
new_dataset = new_dataset.cast_column('audio', Audio())
new_dataset = new_dataset.cast_column('spectrogram', Image())
# Geçici klasör oluştur
temp_dir = os.path.join("temp_dataset", "data")
os.makedirs(temp_dir, exist_ok=True)
try:
# Repository'deki mevcut dosyaları listele
repo_files = api.list_repo_files(repo_id=repo_name, repo_type="dataset")
# Mevcut parquet dosyalarını say
parquet_files = [f for f in repo_files if f.startswith('data/train-') and f.endswith('.parquet')]
if parquet_files:
parquet_count = max([int(f.split('-')[1].split('-')[0]) for f in parquet_files]) + 1
else:
parquet_count = 0
except Exception as e:
print(f"Repository dosyaları listelenirken hata oluştu: {e}")
parquet_count = 0
print(f"Yeni parquet dosyası numarası: {parquet_count}")
# Dataset'i parquet formatında kaydet
parquet_filename = f"train-{parquet_count:05d}-of-{parquet_count+1:05d}.parquet"
new_dataset.to_parquet(os.path.join(temp_dir, parquet_filename))
print(f"Dataset parquet formatında kaydedildi: {parquet_filename}")
# Hugging Face'e yükle
api.upload_folder(
folder_path=os.path.join("temp_dataset", "data"),
repo_id=repo_name,
repo_type="dataset",
path_in_repo="data",
token=hf_token
)
print(f"Veri seti başarıyla güncellendi: {repo_name}")
# Geçici klasörü temizle
if os.path.exists("temp_dataset"):
shutil.rmtree("temp_dataset")
# Yüklenen dosyayı kaydet
with open('uploaded_to_huggingface.txt', 'a', encoding='utf-8') as f:
f.write(f"{json_path}\n")
except Exception as e:
print(f"Yükleme sırasında hata oluştu: {e}")
if os.path.exists("temp_dataset"):
shutil.rmtree("temp_dataset")
raise
def clean_output_directory():
"""Output klasörünü temizler, alt klasörlerdeki tüm dosyaları siler"""
output_dir = "output"
subdirs = ['audio', 'json', 'spectrogram']
try:
for subdir in subdirs:
dir_path = os.path.join(output_dir, subdir)
if os.path.exists(dir_path):
for file in os.listdir(dir_path):
file_path = os.path.join(dir_path, file)
try:
if os.path.isfile(file_path):
os.unlink(file_path)
print(f"Silindi: {file_path}")
except Exception as e:
print(f"Hata: {file_path} silinirken sorun oluştu: {e}")
print("Output klasörü temizlendi.")
except Exception as e:
print(f"Output klasörü temizlenirken hata oluştu: {e}")
def get_video_id_from_filename(filename):
"""JSON dosya adından video_id'yi çıkarır"""
return filename.split('_processed_dataset.json')[0]
if __name__ == "__main__":
# JSON dosyalarını bul
json_folder = os.path.join("output", "json")
if not os.path.exists(json_folder):
raise ValueError("JSON klasörü bulunamadı!")
json_files = [f for f in os.listdir(json_folder) if f.endswith('_processed_dataset.json')]
if not json_files:
raise ValueError("İşlenmiş veri seti JSON dosyası bulunamadı!")
upload_success = True # Yükleme başarısını takip etmek için değişken
# Her JSON dosyası için
for json_file in json_files:
json_path = os.path.join(json_folder, json_file)
# Daha önce yüklenip yüklenmediğini kontrol et
if os.path.exists('uploaded_to_huggingface.txt'):
with open('uploaded_to_huggingface.txt', 'r', encoding='utf-8') as f:
uploaded_files = f.read().splitlines()
if json_path in uploaded_files:
print(f"Bu dosya zaten yüklenmiş, atlanıyor: {json_path}")
continue
# Video ID'yi dosya adından al
video_id = get_video_id_from_filename(json_file)
load_dotenv()
try:
upload_to_huggingface(json_path, video_id)
except Exception as e:
print(f"Yükleme hatası: {e}")
upload_success = False
break
# Tüm yüklemeler başarılı olduysa output klasörünü temizle
if upload_success:
print("Tüm yüklemeler başarıyla tamamlandı. Output klasörü temizleniyor...")
clean_output_directory()
else:
print("Bazı yüklemeler başarısız oldu. Output klasörü temizlenmedi.")