-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
批量下载超过 300 条会闪退 #2
Comments
赞!学习了! |
这个效果的话,一个是26M规模有些小,再一个sft跑到5轮以后会好点,现在的瞎编现象比较严重。 谢谢你的分享,非常详细,比我写的清晰很多hhhh 中秋节快乐!!!✨ |
可以,足够 |
请问最低配置是多少,游戏本32G内存,4060(8G)可以预训练吗? |
可以,但很慢,得耐心等了 |
谢谢大佬,十分具有参考意义,新建环境也遇到了大佬们遇到的坑,flash-attn真的难装啊,https://github.com/bdashore3/flash-attention后面是通过这里下载安装才行,windows系统 |
这个能训练英文model吗 |
4张40G显存的A100,torchrun 4节点,一开始epoch慢一点,基本两天两夜能跑完pretrain,sft也是差不多时间,后来加了meo会慢1/4时间感觉 |
minimind训练大模型过程.pdf |
|
步骤2 数据集处理 |
请问一张4090能预训练嘛 |
@AirGHub 1-pretrain updated on 27th. |
😂现在免去自己预处理环节了 |
感谢大佬分享 |
mobvoi_seq_monkey_general_open_corpus.jsonl 31G,下载好慢 |
现在不需要这么久了😂 |
记录的很好! 可以发个教程了。 |
项目文件说明
imagesReadme里的图片目录。 model模型文件夹。 model/minimind_tokenizer项目自定义的Tokenizer模型文件。
注:分词器训练代码可见 model/dataset.py数据集定义文件,该文件定义了两个继承自Dataset的数据集类,分别是 PretrainDataset 和 SFTDataset,它们分别用于预训练任务和微调任务的数据加载和处理。 model/LMConfig.py模型配置文件,定义 LMConfig 类,继承自 PretrainedConfig。如果想修改模型参数,可以在这个文件里改。 主要包括如下内容:
以下是 MOE(Mixture of Experts)的特定配置当 use_moe 为 False 时,以下配置无效
model/model.py模型文件,定义了模型结构,包括多个子模块如 FeedForward、RMSNorm、MoEGate、MOEFeedForward、TransformerBlock 等,实现了前向传播计算、损失函数计算和通过逐步生成方式进行文本生成。 主要内容总结:
主要功能:
0-eval_pretrain.py测试预训练模型的接龙效果。 1-pretrain.py功能概述预训练脚本,执行预训练。 使用、配置及功能说明以下是该脚本的使用、配置和功能说明: 单机多卡使用
参数配置
数据加载
训练循环
模型的保存频率在训练过程中,模型的权重会每迭代1000步保存一次模型,以便后续检查点或恢复训练。 使用已有权重再训练的说明如果你已经有一个预训练模型的权重文件(例如
注意,这部分是脚本中是注释掉的。 如果你想用已有权重继续训练,需要在脚本中找到上述代码,解除注释,才能使用现有的模型进行训练。 2-eval.py测试模型的对话效果。通过加载预训练后的模型,并让模型来回答内置在脚本中的一系列问题,以评估模型的对话效果。 ckp = f'./out/full_sft_{lm_config.dim}{moe_path}.pth' 其中 3-full_sft.py执行指令微调训练 配置参数代码中可以配置的参数有:
然后按Readme的描述运行脚本即可。 4-lora_sft.py执行lora微调训练 5-dpo_train.py执行DPO训练 chat_openai_api.py实现与OpenAI API类似的接口 CODE_OF_CONDUCT.md贡献者公约 data_process.py处理数据集,例如pretrain数据提前进行token-encoder、sft数据集抽离qa到csv文件 eval_ceval.py评估模型在ceval数据集上的表现 export_model.py可以导出模型到transformers格式,推送到huggingface。 fast_infenence.py使用 Streamlit 框架构建的交互式聊天应用程序,主要内容和功能的概述如下:
实现的功能
LICENSE项目使用Apache License许可证。 my_openai_api.py使用Flask框架构建的API服务器,用于处理与聊天模型相关的请求,包括生成聊天响应和计算文本的嵌入向量。 README_en.md项目说明文件(英语)。 README.md项目说明文件。 requirements.txtpython环境依赖文件,列出了运行该项目所需的Python包及其版本。 train_tokenizer.py用于分词器训练。 |
null
caorushizi#410
The text was updated successfully, but these errors were encountered: