请问运行d2cache的代码时,需要输出中间层的注意力,那么是否指令需要加“attn_implementation=eager”,即总的命令如下:
accelerate launch
--num_machines 1
--num_processes 1
eval.py
dataset.name=humaneval
batch_size=1
seed=1234
generation=vanilla
cache=d2cache
attn_implementation=eager
generation.steps=512
generation.gen_length=512
generation.block_length=32
generation.sigma=10
model=llada-inst
发现如果不加的话,会报错