agi_timelines/model_data.py at main · whymath/agi_timelines · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
from datetime import datetime

# From https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
# Reliability data: performance_50p = task length at 50% reliability, performance_80p = task length at 80% reliability (in hours)
# Note that 'reliability' is often confused - see https://x.com/peterwildeford/status/1967963942589747557

model_data = {
    'gpt2': {
        'name': 'GPT‑2',
        'launch_date': datetime(2019, 2, 14),
        'performance_50p': 2 / 3600,
        'performance_80p': 0.1 / 3600
    },
    'gpt3': {
        'name': 'GPT-3',
        'launch_date': datetime(2020, 5, 28),
        'performance_50p': 9 / 3600,
        'performance_80p': 2 / 3600
    },
    'gpt3p5_turbo': {
        'name': 'GPT‑3.5 Turbo',
        'launch_date': datetime(2023, 3, 1),
        'performance_50p': 36 / 3600,
        'performance_80p': 10 / 3600
    },
    'gpt4': {
        'name': 'GPT-4',
        'launch_date': datetime(2023, 3, 14),
        'performance_50p': 5 / 60,
        'performance_80p': 1 / 60
    },
    'gpt4_nov23': {
        'name': 'GPT-4-Nov23',
        'launch_date': datetime(2023, 11, 6),
        'performance_50p': 9 / 60,
        'performance_80p': 1 / 60
    },
    'claude_3_opus': {
        'name': 'Claude 3 Opus',
        'launch_date': datetime(2024, 3, 4),
        'performance_50p': 6 / 60,
        'performance_80p': 1 / 60
    },
    'gpt4o': {
        'name': 'GPT‑4o',
        'launch_date': datetime(2024, 5, 13),
        'performance_50p': 9 / 60,
        'performance_80p': 2 / 60
    },
    'claude_3p5_sonnet_old': {
        'name': 'Claude 3.5 Sonnet (old)',
        'launch_date': datetime(2024, 6, 20),
        'performance_50p': 19 / 60,
        'performance_80p': 3 / 60
    },
    'o1_preview': {
        'name': 'o1 preview',
        'launch_date': datetime(2024, 9, 12),
        'performance_50p': 22 / 60,
        'performance_80p': 5 / 60
    },
    'claude_3p5_sonnet_new': {
        'name': 'Claude 3.5 Sonnet (new)',
        'launch_date': datetime(2024, 10, 22),
        'performance_50p': 30 / 60,
        'performance_80p': 5 / 60
    },
    'o1': {
        'name': 'o1',
        'launch_date': datetime(2024, 12, 5),
        'performance_50p': 41 / 60,
        'performance_80p': 6 / 60
    },
    'claude_3p7_sonnet': {
        'name': 'Claude 3.7 Sonnet',
        'launch_date': datetime(2025, 2, 24),
        'performance_50p': 56 / 60,
        'performance_80p': 15 / 60
    },
    'o3': {
        'name': 'o3',
        'launch_date': datetime(2025, 4, 16),
        'performance_50p': 1 + 34 / 60,
        'performance_80p': 21 / 60
    },
    'claude_4_sonnet': {
        'name': 'Claude 4 Sonnet',
        'launch_date': datetime(2025, 5, 22),
        'performance_50p': 1 + 15 / 60,
        'performance_80p': 17 / 60
    },
    'claude_4_opus': {
        'name': 'Claude 4 Opus',
        'launch_date': datetime(2025, 5, 22),
        'performance_50p': 1 + 26 / 60,
        'performance_80p': 21 / 60
    },
    'gemini_2p5_pro': {
        'name': 'Gemini 2.5 Pro',
        'launch_date': datetime(2025, 6, 5),
        'performance_50p': 40 / 60,
        'performance_80p': 9 / 60
    },
    'grok_4': {
        'name': 'Grok 4',
        'launch_date': datetime(2025, 7, 9),
        'performance_50p': 1 + 49 / 60,
        'performance_80p': 15 / 60
    },
    'claude_4p1_opus': {
        'name': 'Claude 4.1 Opus',
        'launch_date': datetime(2025, 8, 5),
        'performance_50p': 1 + 54 / 60,
        'performance_80p': 22 / 60
    },
    'gpt5': {
        'name': 'GPT5',
        'launch_date': datetime(2025, 8, 7),
        'performance_50p': 2 + 18 / 60,
        'performance_80p': 27 / 60
    },
    'claude_4p5_sonnet': {
        'name': 'Claude 4.5 Sonnet',
        'launch_date': datetime(2025, 9, 29),
        'performance_50p': 2 + 2/60,
        'performance_80p': 21 / 60
    },
    'gemini_3': {
        'name': 'Gemini 3',
        'launch_date': datetime(2025, 11, 18),
        'performance_50p': None, # Not yet known
        'performance_80p': None
    },
    'gpt5.1-codex-max': {
        'name': 'GPT5.1-Codex-Max',
        'launch_date': datetime(2025, 11, 19),
        'performance_50p': 2 + 53 / 60,
        'performance_80p': 32 / 60
    },
    'claude_4p5_opus': {
        'name': 'Claude 4.5 Opus',
        'launch_date': datetime(2025, 11, 24),
        'performance_50p': 4 + 49/60,
        'performance_80p': 27 / 60
    },
    'gpt5.2': {
        'name': 'GPT 5.2',
        'launch_date': datetime(2025, 12, 11),
        'performance_50p': None, # Not yet known
        'performance_80p': None
    },
    'gpt5.2codex': {
        'name': 'GPT 5.2 Codex',
        'launch_date': datetime(2025, 12, 18),
        'performance_50p': None, # Not yet known
        'performance_80p': None
    },
}