OSError: /lyraChatGLM/lyraChatGLM/libnvinfer_plugin.so: invalid ELF header

#8
by Laity0806 - opened

请问这个问题怎么解?

Laity0806 changed discussion status to closed
Laity0806 changed discussion status to open
Tencent Music Entertainment Lyra Lab org
edited May 23, 2023

@Laity0806 invalid ELF header通常由于环境不匹配导致的,可以给一下您的软硬件信息

@Laity0806 invalid ELF header通常由于环境不匹配导致的,可以给一下您的软硬件信息

您好,之前那个问题解决了。但是现在加载glm.cpython-38-x86_64-linux-gnu.so文件会报这个错误:"glm.cpython-38-x86_64-linux-gnu.so: undefined symbol: _ZN2at4_ops5zeros4callEN3c108ArrayRefINS2_6SymIntEEENS2_8optionalINS2_10ScalarTypeEEENS6_INS2_6LayoutEEENS6_INS2_6DeviceEEENS6_IbEE",可能是底层一些库缺失或者版本不对应吗,您能否提供一下完整的环境配置和requirement(包括版本)呢?

我这边的配置如下:
GPU: RTX3090
NVIDIA-SMI 525.60.11
Driver Version: 525.60.11
CUDA Version: 12.0
python: 3.8
torch: 1.12

Laity0806 changed discussion title from OSError: /lcj/lyraChatGLM/lyraChatGLM/libnvinfer_plugin.so: invalid ELF header to OSError: /lyraChatGLM/lyraChatGLM/libnvinfer_plugin.so: invalid ELF header
Tencent Music Entertainment Lyra Lab org

@Laity0806 Hi,undefined symbol一下看不出来是哪个函数缺了,可否先用我们提供的docker镜像试试?如果那个能跑,可以导出镜像相关的环境(重点应该是cuda相关的版本)对齐一下

This comment has been hidden

@Laity0806 Hi,undefined symbol一下看不出来是哪个函数缺了,可否先用我们提供的docker镜像试试?如果那个能跑,可以导出镜像相关的环境(重点应该是cuda相关的版本)对齐一下

除了cuda版本,你们这个demo对机器硬件也有要求吧?题主的GPU是RTX3090, 这个demo能跑吗?你们这个demo是不是只能跑在A100机器上呢

@Laity0806 Hi,undefined symbol一下看不出来是哪个函数缺了,可否先用我们提供的docker镜像试试?如果那个能跑,可以导出镜像相关的环境(重点应该是cuda相关的版本)对齐一下

@bigmoyan 用A30(24G)和提供的docker镜像测试了一下,OOM了,这个转换后的模型对显存占用大概是多少啊?方便给一下您那边的详细配置信息不

你好,请问一下出现找不到from .glm import GLM6B 这个问题咋解决的?

Tencent Music Entertainment Lyra Lab org

@flyerxu @zangao @xiangli @Laity0806 可以用现在新更新的加速版本,不再基于 TRT,新的版本易用性,兼容性和速度上都更好

@flyerxu @zangao @xiangli @Laity0806 可以用现在新更新的加速版本,不再基于 TRT,新的版本易用性,兼容性和速度上都更好
@vanewu 不再基于TRT,那是基于FT吗?

@vanewu 还有个问题,不再基于TRT之后,对跑的机器硬件还有限制吗?上一个版本是只能在A100的机器上跑,现在不基于TRT后,是不是可以在A10或者V100等其他GPU上面跑了呢

Tencent Music Entertainment Lyra Lab org

@flyerxu 才更新的版本在 V100 和 A10 A30上都可运行了哈,硬件支持更多了,我们晚些还会加入 T4 的支持。

@flyerxu 才更新的版本在 V100 和 A10 A30上都可运行了哈,硬件支持更多了,我们晚些还会加入 T4 的支持。

@vanewu 非常好,但是我发现我想跑还碰到个问题,就是你们提供的镜像里面cuda版本是12的,cuda driver要求的版本有点高,我们没有实体机器的情况下,没办法升级驱动,cuda版本只能支持11+,或许你们能提供多一个镜像cuda版本是11+的版本?

Tencent Music Entertainment Lyra Lab org
edited Jun 2, 2023

@flyerxu 新更新的对 cuda 没有指定的版本限制,只是提供了一个我们在用的镜像而已。其实你们自己的本地机器应该就能直接跑,安装下 requirements.txt 里的基础依赖就好。 或者你可以拉取 NGC 的镜像:nvcr.io/nvidia/pytorch:22.12-py3 来用,这个应该就是 CUDA11.X 的。

@vanewu 您好,直接拉取镜像,然后拉取项目,运行python demo.py,也是报这个错误,invalid ELF header,请问这个要怎么解决呢?
报错信息:

Traceback (most recent call last):
  File "demo.py", line 10, in <module>
    model = LyraChatGLM6B(model_path, tokenizer_path, data_type, int8_mode, arch)
  File "/workspace/lyraChatGLM/lyraChatGLM/lyra_glm.py", line 24, in __init__
    self.model, self.tokenizer = self.load_model_and_tokenizer()
  File "/workspace/lyraChatGLM/lyraChatGLM/lyra_glm.py", line 106, in load_model_and_tokenizer
    model = ChatGLM6BModel(arch=self.arch,**model_args)
  File "/workspace/lyraChatGLM/lyraChatGLM/model.py", line 480, in __init__
    torch.classes.load_library(os.path.abspath(lib_path))
  File "/usr/local/lib/python3.8/dist-packages/torch/_classes.py", line 51, in load_library
    torch.ops.load_library(path)
  File "/usr/local/lib/python3.8/dist-packages/torch/_ops.py", line 641, in load_library
    ctypes.CDLL(path)
  File "/usr/lib/python3.8/ctypes/__init__.py", line 373, in __init__
    self._handle = _dlopen(self._name, mode)
OSError: /workspace/lyraChatGLM/lyraChatGLM/ftlib/libth_transformer_sm80.so: invalid ELF header

软硬件:

system: Ubuntu 20.04.5
docker: 24.0.2
GPU: A100 40G

@flyerxu 新更新的对 cuda 没有指定的版本限制,只是提供了一个我们在用的镜像而已。其实你们自己的本地机器应该就能直接跑,安装下 requirements.txt 里的基础依赖就好。 或者你可以拉取 NGC 的镜像:nvcr.io/nvidia/pytorch:22.12-py3 来用,这个应该就是 CUDA11.X 的。

@vanewu 刚试了还是需要依赖cuda12啊,报错:OSError: libcudart.so.12: cannot open shared object file: No such file or directory
查看依赖库:
$ objdump -x libth_transformer_sm80.so | grep NEEDED
NEEDED libc10.so
NEEDED libcudart.so.12
NEEDED libc10_cuda.so
NEEDED libcublasLt.so.12
NEEDED libtorch_cpu.so
NEEDED libtorch_cuda.so
NEEDED libcublas.so.12
NEEDED libcudnn.so.8
NEEDED libtorch.so
NEEDED libnccl.so.2
NEEDED libmpi.so.40
NEEDED libnvToolsExt.so.1
NEEDED libpthread.so.0
NEEDED libdl.so.2
NEEDED libstdc++.so.6
NEEDED libm.so.6
NEEDED libgcc_s.so.1
NEEDED libc.so.6
NEEDED ld-linux-x86-64.so.2

Tencent Music Entertainment Lyra Lab org

@littlerookie159 @Laity0806 这里看到几位同学都在反馈 cuda11.x 的问题,后续我们这会专门对这个做下测试和兼容,之前未专门看过这个版本下的运行时问题。感谢反馈

Sign up or log in to comment