bos 토크나이저에 대해 궁급한게 있습니다
#7
by
gravy0106
- opened
<|begin_of_text|> 토크나이저가
chat_template에서
{{- bos_token }}\n 여기서 한번
{%- if messages[0]['role'] == 'system' %}
{% endif %}
여기서도 bos_token이 포함된 메세지가 들어가
<|begin_of_text|><|begin_of_text|><|start_header_id|>system<|end_header_id|> 로 시작 되는거 같은데
크게 상관은 없을까요?
chat template은 meta-llama/Llama-3.2-3B-Instruct
을 기반으로 하여 작성되었고 meta-llama/Llama-3.2-3B-Instruct
의 chat template 또한 bos token이 메세지 앞에 붙습니다.
예제 코드처럼 apply_chat_template( ..., return_tensors="pt")
사용하시거나 bos token이 하나만 들어가게 사용하시는걸 추천합니다.