-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathcolab_processor.py
106 lines (85 loc) · 3.07 KB
/
colab_processor.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
# @title YouTube'dan Hugging Face'e Veri Seti Yükleme
import os
import subprocess
from getpass import getpass
# Hugging Face token'ını al
def set_hf_token():
token = getpass('Hugging Face Token: ')
os.environ['HUGGINGFACE_TOKEN'] = token
# Gerekli kütüphaneleri yükle
def install_dependencies():
packages = [
'yt-dlp',
'pydub',
'webvtt-py',
'datasets',
'transformers',
'librosa',
'huggingface_hub',
'python-dotenv'
]
for package in packages:
subprocess.run(['pip', 'install', package])
# Klasör yapısını oluştur
def create_directories():
dirs = [
'/content/output/audio',
'/content/output/json',
'/content/output/spectrogram'
]
for dir_path in dirs:
os.makedirs(dir_path, exist_ok=True)
# İşlem scriptlerini indir
def download_scripts():
scripts = {
'youtube_splitter_tr.py': 'https://raw.githubusercontent.com/zinderud/sayha/main/youtube_splitter_tr.py',
'processed_dataset.py': 'https://raw.githubusercontent.com/zinderud/sayha/main/processed_dataset.py',
'upload_to_huggingface.py': 'https://raw.githubusercontent.com/zinderud/sayha/main/upload_to_huggingface.py'
}
for filename, url in scripts.items():
subprocess.run(['wget', '-O', filename, url])
# Video işleme fonksiyonu
def process_youtube_video(youtube_url):
try:
# YouTube videosunu işle
subprocess.run(['python', 'youtube_splitter_tr.py', youtube_url], check=True)
# Veri setini işle
subprocess.run(['python', 'processed_dataset.py'], check=True)
# Repository adını al
repo_name = "sadece/sayha"
# Hugging Face'e yükle
subprocess.run(['python', 'upload_to_huggingface.py'], check=True)
print("İşlem başarıyla tamamlandı!")
except subprocess.CalledProcessError as e:
print(f"Hata oluştu: {e}")
finally:
# Geçici dosyaları temizle
for folder in ['audio', 'json', 'spectrogram']:
path = f'/content/output/{folder}/'
subprocess.run(['rm', '-rf', path + '*'])
# Hugging Face token ve repo bilgilerini al
def set_hf_credentials():
token = getpass('Hugging Face Token: ')
os.environ['HUGGINGFACE_TOKEN'] = token
repo = "sadece/sayha"
def main():
print("YouTube'dan Hugging Face'e Veri Seti Yükleme Aracı")
print("-" * 50)
# Kurulum adımları
print("1. Bağımlılıklar yükleniyor...")
install_dependencies()
print("\n2. Klasörler oluşturuluyor...")
create_directories()
print("\n3. Scriptler indiriliyor...")
download_scripts()
print("\n4. Hugging Face bilgileri ayarlanıyor...")
set_hf_credentials()
# YouTube URL'sini al
print("\n5. YouTube video işleme")
youtube_url = input("YouTube URL'sini girin: ")
if youtube_url:
process_youtube_video(youtube_url)
else:
print("Geçerli bir YouTube URL'si girmelisiniz!")
if __name__ == "__main__":
main()