arxiv langchain chainlit openai chromadb tiktoken pymupdf