bos 토크나이저에 대해 궁급한게 있습니다

#7
by gravy0106 - opened

<|begin_of_text|> 토크나이저가
chat_template에서

{{- bos_token }}\n 여기서 한번

{%- if messages[0]['role'] == 'system' %}
{% endif %}

여기서도 bos_token이 포함된 메세지가 들어가
<|begin_of_text|><|begin_of_text|><|start_header_id|>system<|end_header_id|> 로 시작 되는거 같은데

크게 상관은 없을까요?

Bllossom org

chat template은 meta-llama/Llama-3.2-3B-Instruct을 기반으로 하여 작성되었고 meta-llama/Llama-3.2-3B-Instruct의 chat template 또한 bos token이 메세지 앞에 붙습니다.

예제 코드처럼 apply_chat_template( ..., return_tensors="pt") 사용하시거나 bos token이 하나만 들어가게 사용하시는걸 추천합니다.

Sign up or log in to comment