Add ApplyRoPE and RMSNorm kernels written in OpenAI Triton

by wangzihan99 - opened Nov 14, 2023

base: refs/heads/main

←

from: refs/pr/6

Discussion Files changed

+460

-164

wangzihan99

Nov 14, 2023

No description provided.

Add fused ApplyRoPE and RMSNorm kernels written in OpenAI Triton.89a2cd3b

wangzihan99 changed pull request title from Add fused ApplyRoPE and RMSNorm kernels written in OpenAI Triton to Add ApplyRoPE and RMSNorm kernels written in OpenAI Triton Nov 15, 2023

wangzihan99

Nov 15, 2023

•

edited Dec 1, 2023

This PR add kernels of ApplyRoPE and RMSNorm written in OpenAI Triton. These kernels offer better performance, support a wider range of GPU architectures (including V100 and T4), and requires no pre-compilation of kernels compared with flash-attn. They are enabled automatically if Triton is installed (usually bundled with PyTorch 2.x).

wangzihan99 changed pull request status to open Nov 15, 2023

Merge branch 'main' of https://huggingface.co/Qwen/Qwen-7B-Chat-Int4 into pr/674a13278

Improve performance witih Triton 2.0 and adapt to latest Qwen releases.5b354c88

Merge branch 'main' of https://huggingface.co/Qwen/Qwen-7B-Chat-Int4 into pr/67fa16ca0

wangzihan99 changed pull request status to closed Dec 4, 2023

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Your need to confirm your account before you can post a new comment.

· Sign up or log in to comment