Sayha

demeo https://huggingface.co/datasets/sadece/sayha/

youtube videolarını indirir, alt yazılarına göre video_ismi örnek "Ahmet'e gelen dürüm" ---- ahmet-e_gelen_durum.mp3 olarak parçalar.

https://colab.research.google.com/github/zinderud/Sayha/blob/main/youtube_to_huggingface.ipynb

Amac

Oluşturulcak Türkce dil modeli için kaynak oluşturmak.

Kurulum:

ffmpeg'i sisteminize kurmanız gerekiyor. Kurulum için:

Windows: FFmpeg'i indirin ve PATH'e ekleyin.

pip install yt-dlp pydub pysrt
pip install webvtt-py
pip install librosa matplotlib transformers
pip install soundfile audioread
pip install datasets huggingface_hub

çalıştırma

python youtube_splitter_tr.py "YOUTUBE_VIDEO_URL"

json formatında çıktı olarak alma

python output_Json.py

uploaded hugenface

python upload_to_huggingface.py

Sorunlar

bazı linkler windowsta uzunluk hatasına sebeb veriyor. Oromatik altyazılarda sorunlar mevcut o yüzden veri çekimi için elle eklenmiş altyazıları kullanın. bunun için videoları youtube filtre özelliği altyazıyıyı secmek gerekiyor.

Çıktı Klasörü Yapısı

İşlem tamamlandıktan sonra, processed_output klasörü şu şekilde olacak:

processed_output/
├── 001_bir_örnek_cümle.mp3_spectrogram.png
├── 002_baska_bir_cümle.mp3_spectrogram.png
├── 003_kara_haber_var.mp3_spectrogram.png
├── 001_farklı_bir_cümle.mp3_spectrogram.png
├── 002_başka_örnek.mp3_spectrogram.png
└── processed_dataset.json

Spektrogram Görselleri: Her bir MP3 dosyası için spektrogram görseli. processed_dataset.json: Tüm ses dosyalarının işlenmiş verilerini içeren JSON dosyası. Spektrogram veya MFCC özelliklerini bir sinir ağına girdi olarak verebilirsiniz.

Tokenize edilmiş metinleri, metin üretme veya dil modeli eğitimi için kullanabilirsiniz.

Kalan aşamalar

Bu videoları hiç indirmeden github actions kullanılarak çalışmadı.

https://colab.research.google.com/github/zinderud/Sayha/blob/main/youtube_to_huggingface.ipynb

Name		Name	Last commit message	Last commit date
Latest commit History 96 Commits
.github/workflows		.github/workflows
.gitignore		.gitignore
README.md		README.md
audio_dataset.json		audio_dataset.json
colab_interface.py		colab_interface.py
colab_processor.py		colab_processor.py
colab_uploader.py		colab_uploader.py
downloaded_videos.txt		downloaded_videos.txt
get_tr_altyazi_yil.py		get_tr_altyazi_yil.py
get_turkish_subtitle_videos.py		get_turkish_subtitle_videos.py
links.txt		links.txt
output_Json.py		output_Json.py
processed_dataset.py		processed_dataset.py
requirements.txt		requirements.txt
script.py		script.py
upload_to_huggingface.py		upload_to_huggingface.py
uploaded_to_huggingface.txt		uploaded_to_huggingface.txt
video.tr.vtt		video.tr.vtt
youtube_splitter_tr.py		youtube_splitter_tr.py
youtube_to_huggingface.ipynb		youtube_to_huggingface.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sayha

Amac

Kurulum:

Sorunlar

Çıktı Klasörü Yapısı

Kalan aşamalar

About

Releases

Packages

Languages

zinderud/Sayha

Folders and files

Latest commit

History

Repository files navigation

Sayha

Amac

Kurulum:

Sorunlar

Çıktı Klasörü Yapısı

Kalan aşamalar

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages