Transformer Implementation from Scratch

A complete PyTorch implementation of the Transformer architecture from the seminal paper "Attention Is All You Need" by Vaswani et al. This implementation is designed for English-Italian translation tasks and includes comprehensive training and inference pipelines.

Architecture Overview

This implementation includes all core components of the Transformer architecture:

Input Embeddings: Token embeddings with scaling by √d_model
Positional Encoding: Sinusoidal position embeddings
Multi-Head Attention: Scaled dot-product attention with multiple heads
Feed-Forward Networks: Position-wise fully connected layers
Layer Normalization: Applied before each sub-layer (pre-norm)
Residual Connections: Skip connections around each sub-layer
Encoder-Decoder Architecture: Complete sequence-to-sequence model

Project Structure

├── config/
│   └── config.py              # Model configuration and hyperparameters
├── data/
│   └── dataset.py             # Bilingual dataset class with tokenization
├── transformer/
│   └── model.py               # Complete Transformer implementation
├── scripts/
│   └── train.py               # Training script with WandB integration
│   └── translate.py           # Translation inference utilities
├── notebooks/
│   ├── transformer_train.ipynb      # Interactive training notebook
│   ├── transformer_inference.ipynb  # Inference and testing notebook
│   └── attention_visualization.ipynb # Attention pattern visualization
├── requirements.txt           # Project dependencies
├── README.md                 # Project documentation
└── .gitignore               # Git ignore patterns

Quick Start

Installation

Clone the repository:

git clone https://github.com/Showmick119/Implementing-Attention-Is-All-You-Need.git
cd Implementing-Attention-Is-All-You-Need

Install dependencies:

pip install -r requirements.txt

Training

Option 1: Jupyter Notebooks (Recommended for Colab)

Open notebooks/transformer_train.ipynb in Google Colab
Follow the step-by-step training process
Monitor training progress with built-in visualizations

Option 2: Command Line

python scripts/train.py

Inference

Use the notebooks/transformer_inference.ipynb notebook to:

Load trained models
Perform translation inference on custom inputs

Attention Visualization

Use the notebooks/attention_visualization.ipynb notebook to:

Load trained models
Visualize attention patterns
Analyze model behavior

Configuration

The model configuration is managed in config/config.py:

{
    "batch_size": 8,           # Training batch size
    "num_epochs": 20,          # Number of training epochs
    "lr": 1e-4,               # Learning rate
    "seq_len": 350,           # Maximum sequence length
    "d_model": 512,           # Model dimension
    "lang_src": "en",         # Source language (English)
    "lang_tgt": "it",         # Target language (Italian)
    "model_folder": "weights", # Model checkpoint directory
    "preload": None,          # Path to pretrained model
    "experiment_name": "runs/tmodel"  # Experiment tracking name
}

Dataset

The implementation uses the OPUS Books dataset for English-Italian translation:

Automatically downloaded via HuggingFace datasets
Includes proper tokenization with special tokens ([SOS], [EOS], [PAD])
Handles variable-length sequences with padding
Creates appropriate attention masks for training

Model Details

Architecture Specifications

Model Dimension (d_model): 512
Feed-Forward Dimension: 2048
Number of Heads: 8
Number of Layers: 6 (encoder) + 6 (decoder)
Vocabulary Size: Dynamic (based on tokenizer)
Maximum Sequence Length: 350 tokens

Key Implementation Details

Attention Mechanism: Scaled dot-product attention
Positional Encoding: Sinusoidal functions (sin/cos)
Normalization: Layer normalization (pre-norm configuration)
Dropout: Applied throughout the model for regularization
Weight Initialization: Xavier initialization

Training Process

Data Preprocessing: Tokenization and sequence preparation
Model Initialization: Transformer model with specified configuration
Training Loop: Forward pass, loss calculation, backpropagation
Validation: BLEU score evaluation on validation set
Checkpointing: Model state saving for resuming training
Monitoring: Real-time metrics via Weights & Biases

Evaluation

The model is evaluated using:

BLEU Score, WER, CER: Standard metrics for translation quality
Attention Visualization: Qualitative analysis of attention patterns

Google Colab Support

The implementation is fully compatible with Google Colab:

All notebooks run seamlessly in Colab environment
Automatic GPU detection and utilization
Pre-configured for easy experimentation
No local setup required

Customization

For Different Language Pairs

Update lang_src and lang_tgt in configuration
Ensure dataset availability for the language pair
Adjust vocabulary size if needed

For Different Datasets

Modify the dataset loading in scripts/train.py
Ensure data format compatibility with BilingualDataset class
Update tokenizer training if needed

Model Architecture Changes

Adjust hyperparameters in config/config.py
Modify model architecture in transformer/model.py
Update training script accordingly

References

Attention Is All You Need - Original Transformer paper
The Illustrated Transformer - Visual explanation
The Annotated Transformer - Detailed implementation guide

Contributing

Contributions are welcome! Please feel free to submit pull requests or open issues for:

Bug fixes
Performance improvements
Additional features
Documentation enhancements

License

This project is licensed under the MIT License - see the LICENSE file for details.

Acknowledgments

This implementation is based on the original Transformer paper. Special thanks to the PyTorch team and the open-source ML community for providing excellent tools and resources.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Transformer Implementation from Scratch

Architecture Overview

Project Structure

Quick Start

Installation

Training

Option 1: Jupyter Notebooks (Recommended for Colab)

Option 2: Command Line

Inference

Attention Visualization

Configuration

Dataset

Model Details

Architecture Specifications

Key Implementation Details

Training Process

Evaluation

Google Colab Support

Customization

For Different Language Pairs

For Different Datasets

Model Architecture Changes

References

Contributing

License

Acknowledgments

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 82 Commits
.github/workflows		.github/workflows
config		config
data		data
notebooks		notebooks
scripts		scripts
tests		tests
transformer		transformer
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pytest.ini		pytest.ini
requirements.txt		requirements.txt

License

Showmick119/Implementing-Attention-Is-All-You-Need

Folders and files

Latest commit

History

Repository files navigation

Transformer Implementation from Scratch

Architecture Overview

Project Structure

Quick Start

Installation

Training

Option 1: Jupyter Notebooks (Recommended for Colab)

Option 2: Command Line

Inference

Attention Visualization

Configuration

Dataset

Model Details

Architecture Specifications

Key Implementation Details

Training Process

Evaluation

Google Colab Support

Customization

For Different Language Pairs

For Different Datasets

Model Architecture Changes

References

Contributing

License

Acknowledgments

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages