Dataset Analyzer is a powerful open-source platform for intelligent dataset analysis. It automatically analyzes datasets, generates insights, and creates interactive visualizations. Built with modern Python technologies, it can efficiently process large files with streaming analysis.
- Automatic data type detection (numeric, categorical, datetime, text)
- Object column analysis (emails, phones, URLs, dates, numeric strings)
- Data quality assessment (missing values, outliers, completeness)
- Statistical insights and summaries
- Interactive charts (histograms, box plots, heatmaps, time series)
- Smart object charts (pattern detection, convertibility, length distributions)
- Multi-chart dashboard with tabbed navigation
- Export-ready high-quality charts
- Streaming analysis for large (GB+) files
- Supports CSV, JSON, JSON Lines, Excel (.xlsx/.xls)
- Async processing with FastAPI
- Smart caching of results
- Streamlit-based clean, responsive interface
- Real-time progress tracking
- Python 3.8+
- pip package manager
- 4GB+ RAM recommended for large files
git clone https://github.com/aakcay5656/dataset-analyzer.git
cd dataset-analyzer
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install -r requirements.txt# Terminal 1 - Backend
cd backend
python main.py
# Terminal 2 - Frontend
streamlit run streamlit_app.pyOpen in browser: http://localhost:8501
Backend: FastAPI · SQLAlchemy · Pandas · NumPy · Plotly Frontend: Streamlit · Plotly.js · Custom CSS Database: SQLite (default), PostgreSQL (production)
We welcome contributions!
- Bug reports → open an issue
- Feature requests → share ideas
- Code contributions → submit PRs
- Docs → improve README & examples
- Testing → add test cases
- GitHub Issues
- Discussions
- Email:
[email protected]
If you like this project, please star the repo!
Dataset Analyzer, akıllı veri analizi için geliştirilmiş güçlü ve açık kaynaklı bir platformdur. Veri setlerini otomatik olarak analiz eder, anlamlı içgörüler üretir ve etkileşimli görselleştirmeler oluşturur. Modern Python teknolojileri ile geliştirilmiştir ve büyük dosyaları streaming analiz sayesinde verimli bir şekilde işler.
- Otomatik veri tipi algılama (sayısal, kategorik, tarih, metin)
- Object kolon analizi (email, telefon, URL, tarih, numerik string)
- Veri kalitesi ölçümü (eksik değerler, aykırı değerler, tamlık)
- İstatistiksel özetler ve içgörüler
- Etkileşimli grafikler (histogram, boxplot, ısı haritası, zaman serisi)
- Object kolon grafikleri (pattern analizi, dönüştürülebilirlik, uzunluk dağılımı)
- Çoklu grafik dashboard (sekme tabanlı düzen)
- Sunuma hazır yüksek kaliteli grafikler
- GB+ boyutlu dosyalar için streaming analizi
- CSV, JSON, JSON Lines, Excel (.xlsx/.xls) desteği
- FastAPI ile async işleme
- Akıllı caching sistemi
- Streamlit tabanlı modern ve sade arayüz
- Gerçek zamanlı ilerleme takibi
- Python 3.8+
- pip paket yöneticisi
- Büyük dosyalar için 4GB+ RAM önerilir
git clone https://github.com/aakcay5656/dataset-analyzer.git
cd dataset-analyzer
python -m venv .venv
source .venv/bin/activate # Windows: .venv\Scripts\activate
pip install -r requirements.txt# Terminal 1 - Backend
cd backend
python main.py
# Terminal 2 - Frontend
streamlit run streamlit_app.pyTarayıcıda aç: http://localhost:8501
Backend: FastAPI · SQLAlchemy · Pandas · NumPy · Plotly Frontend: Streamlit · Plotly.js · Custom CSS Database: SQLite (varsayılan), PostgreSQL (production)
Katkılarınızı bekliyoruz!
- Hata bildirimi → issue aç
- Yeni özellik önerisi → tartışma başlat
- Kod katkısı → pull request gönder
- Dokümantasyon → README & örnek ekle
- Test → yeni testler yaz
- GitHub Issues
- Discussions
- E-posta:
[email protected]
İstersen sana bunun sadece İngilizce ya da sadece Türkçe versiyonunu da sadeleştirip ayırabilirim (örneğin GitHub’daki README.md İngilizce, README.tr.md Türkçe gibi).
İster misin o şekilde ayırayım?