-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathprocessed_dataset.py
99 lines (79 loc) · 4.21 KB
/
processed_dataset.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
import os
import json
import librosa
import librosa.display
import matplotlib.pyplot as plt
import numpy as np
from transformers import AutoTokenizer
# Giriş ve çıkış klasörleri
input_folder = "output"
output_base = "output"
json_output_folder = os.path.join(output_base, "json")
spectrogram_output_folder = os.path.join(output_base, "spectrogram")
# Tokenizer'ı yükle (örneğin, BERT tokenizer)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
# Çıkış klasörlerini oluştur
os.makedirs(json_output_folder, exist_ok=True)
os.makedirs(spectrogram_output_folder, exist_ok=True)
# Veri setini tutacak liste
dataset = []
# Video klasörünü bul (output/audio altındaki ilk klasör)
audio_folders = [f for f in os.listdir(os.path.join(input_folder, "audio")) if os.path.isdir(os.path.join(input_folder, "audio", f))]
if not audio_folders:
raise ValueError("Audio klasöründe video klasörü bulunamadı!")
video_id = audio_folders[0] # İlk klasörü al (video_id)
# Klasörleri ve dosyaları tarama
for root, dirs, files in os.walk(input_folder):
for file in files:
if file.endswith(".mp3"):
# Dosya yolunu al
audio_path = os.path.join(root, file)
# Dosya adından metni çıkar
transcription = os.path.splitext(file)[0] # Uzantıyı kaldır
transcription = "_".join(transcription.split("_")[1:]) # İlk kısmı (numara) kaldır
transcription = transcription.replace("_", " ") # Alt çizgileri boşlukla değiştir
try:
# Ses dosyasını yükle
y, sr = librosa.load(audio_path, sr=None)
# Spektrogram oluştur
spectrogram = librosa.feature.melspectrogram(y=y, sr=sr)
# Spektrogramı görselleştir ve kaydet
plt.figure(figsize=(10, 4))
librosa.display.specshow(librosa.power_to_db(spectrogram, ref=np.max), y_axis='mel', x_axis='time')
plt.colorbar(format='%+2.0f dB')
plt.title('Mel Spectrogram')
# Mevcut spektrogram dosyalarını kontrol et ve bir sonraki sıradaki numarayı belirle
existing_spectrogram_files = [f for f in os.listdir(spectrogram_output_folder) if f.endswith("_spectrogram.png")]
next_file_number = len(existing_spectrogram_files) + 1
# Dosya adındaki numarayı al
file_number = file.split("_")[0]
# Spektrogram dosya ismini oluştur
spectrogram_filename = f"{next_file_number:07d}_{file_number}_{'_'.join(file.split('_')[1:])}_spectrogram.png"
spectrogram_path = os.path.join(spectrogram_output_folder, spectrogram_filename)
plt.savefig(spectrogram_path)
plt.close()
# MFCC özelliklerini çıkar
mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
# Metni tokenize et
tokens = tokenizer.tokenize(transcription)
token_ids = tokenizer.encode(transcription)
# Veri setine ekle
dataset.append({
"audio_file": audio_path,
"transcription": transcription,
"spectrogram": spectrogram_path,
"mfcc": mfcc.tolist(), # Numpy array'i listeye çevir
"tokens": tokens,
"token_ids": token_ids
})
except Exception as e:
print(f"Hata: {audio_path} işlenirken bir sorun oluştu. Hata mesajı: {e}")
# JSON dosyasını video_id ile kaydet
output_json_filename = f"{video_id}_processed_dataset.json"
output_json_path = os.path.join(json_output_folder, output_json_filename)
# Veri setini JSON dosyası olarak kaydet
with open(output_json_path, "w", encoding="utf-8") as f:
json.dump(dataset, f, ensure_ascii=False, indent=4)
print(f"Toplam {len(dataset)} ses dosyası işlendi.")
print(f"Spektrogramlar '{spectrogram_output_folder}' klasörüne kaydedildi.")
print(f"JSON dosyası '{output_json_path}' olarak kaydedildi.")