提 要:在本文中,我们通过扩展LLaMA现有的词表,增加额外的20,000个朝鲜语Token,从而提高其对朝鲜语的编码和语义理解的能力;并且进一步使用朝鲜语数据进行继续预训练,使用朝鲜语指令微调数据集对模型进行SFT(S(试读)...