untitled.md · Yingda/dummymodel2 at ea07785d76a6db75ce8e3d611b011562250d3e70

1、关于企业专属大模型人力协调。昨晚经过海青和应答进一步确认，结论为非DashScope部分，与430专属大模型界面相关前后端全部由行解研提供人力支持。今天上午11点，7位小二（前端2，测试2，后端*3）全部确认，来自行解研3部（绍隆团队）。已经完成空印和对方对接。下午开始具体的工作对接，目前运行良好。

王超对于python代码性能分析优化和调试都有着比较深厚的积累，并且开发了nitro编译优化等比较硬核的工具，并在针对性的计算密集任务上获取了比较好的效果。但是之前在NLP工程团队，对于业务工程方面的工作没有比较好的align，实际落地产出的工作有限。在这个实际业务产出有限的前提下，全年的绩效为3.5-。这样的绩效某种程度上，与同学能力和业务需求有所不匹配相关，同学本身在python领域的技术能力比较solid，也被大团队所认可，接下来调整到aquila/proxima团队做核心技术工作，期望能有更好的技术产出。

这个背景下，在尊重FY23 3.5-绩效决定的前提下，对于王超将来对团队的贡献依然有所期待，所以依然给予一定的调薪分配。

【O-组织】围绕达摩院AI板块业务目标，从技术发展趋势和产品策略出发，基于定义的目标，形成项目组，并能设计出在组织、人才、文化配套方案。从而围绕“生产力-技术创新突破”，“生产效率-技术孵化周期”，各技术团队能通力合作，基础研究+领域应用组织调度系统和方法建设，提升组织效率和效能。

KR1：围绕业务目标：发布多模态大模型应用（Bazinga，实现大模型服务国内第一梯队），基于人才盘点、e表等重要环节人才信息，确定淘汰、核心人员名单，并在FY24财年中闭环review和跟进。 KR2：软的部分-润滑剂。大模型的技术变革带来组织和人员调整，沟通方案需要有设计，在满足技术业务需求的情况下，充分考虑个人的发展诉求。做到精英之间同频共振，互相尊重、激发，加快团队转型效率与节奏。 KR3：OKR保障：提升OKR质量，从工作习惯的适应到工作方式的转变。板块重点项目、各实验室内部（周会、月会、月报等围绕OKR进行）确保业务从目标、策略到执行层层要和，促进生产关系协同。运用线上化的工具，作为组织高效运转的抓手，推动目标共识、过程管理、结果评价，实现目标与机制的闭环。 KR4：围绕板块重点方向，算法（基础研究）、算法（应用落地）、工程、产品建立沟通机制（战役/项目组等），提升决策效率。做到目标通、关键人才信息通，提升核心团队运行效率，沉淀达摩院特色技术精英共振机制。

● ■ 针对分布式git升级做了一轮摸底，测试发现当前git访问瓶颈在于公网带宽，在带宽充足时新方案提升到3倍。同时目前用户反馈的notebook git速度慢问题定位为跨Region访问git仓库，git多地域分发能力技术方案调研中。 ■ Inference API、模型一键部署等相关需求技术方案调研中，Notebook 支持云资源付费链路开发中。

O1:通过“模型+系统平台+云”联合生态的构建，实现云+智能的全栈能力输出，支持达摩院与云AI对外整体技术影响力的形成。树立承载“模型即服务（MaaS）”理念的行业标杆。

KR1: 完成DashScope的产品化。以大模型的实际场景为切入点，在统一的技术底座上，为各种模型提供云原生的高效的推理，微调，训练，和数据回流等能力，提供多种模态能力AI的被集成接口，以及核心AI资产在云生态上的自闭环。实现达摩院当前大部分头部API往DashScope平台的迁移和聚合，并通过DashScope上的全链路优化，为迁移的API提供更加高效的推理训练，以及包括版本管理在内的完整MLOps功能。

KR2: 完善多种模态的模型在ModelScope library以及modelscope站点demo/创空间/工具箱等全方位生态接入方式，完善站点本身能力以及与云生态的互动，为模型贡献者，与模型使用者持续提供便利。紧跟领域最新模型研究进展，确保先进模型的高效及时接入，并选择性建设LLM效果评测等高需求工具。关注模型部署，体验，和应用搭建的全链路体验。依托云PaaS平台，完善推理，(分布式)训练与部署能力。通过对各领域模型体系结构梳理，形成ModelScope library技术特点。探索在新兴或现有领域中，具备特色的，能与Transformers，Diffusers等对标的技术组件。继续增强ModelScope在国内模型社区领先地位的同时，对标国际竞品。坚持建设精品模型社区的理念，依托达摩院以及其他机构高质模型的先发优势的同时，探索平台特有功能点，并将相关工作整理为论文发表，形成一流模型社区的国际影响力。 KR3: 实现ModelScope和DashScope两个横向平台互联互动，落实ModelScope为DashScope的引流作用，以及DashScope为ModelScope模型生态提供生产化，促进相辅相成的模型数据生态的形成。注重沉淀两个系统上通用的技术能力同时，深入探索不同场景上的针对性改进与优化。有意识地促进两个平台间技术的复用与融合，以及功能点的互补。建设和输出业界一流的AI生态+基础设施。

O2：实现核心工程组件的通用化和服务化能力，为各个实验室提供系统化支持的同时，实现基于云原生底座的对外服务能力透传。 KR1:将HIE/Aquila等技术组件，打造为支持各模态模型推理加速的通用底座。通过在DashScope项目上的打磨，将 HIE算子优化实现，AllSpark体系的建设，Aquila推理框架等方面，通过一个体系化、系统自适应化的方式去对外输出，支持各类模型的（自适应）推理优化的能力。这包括针对各类场景（LLM，文生图，语音等等）的具体优化，以及在这个基础上，系统化地与PAI-Blade等优化框架对接，支持自动化的量化能力，和与PAI-EAS协同探索多机多卡推理能力等方面的工作。同时探索Aquila与HIE对外独立服务化的方案。

KR2:梳理数据获取->清理/转换/标注->管理全链路，完善AI数据处理算子生态，提供多语言数据支持等能力，对标业界一流算法模型研发，尤其是各领域大模型所需的高质量数据支持能力。推动各数据组件的云化服务输出，通过轻量化部署等技术手段，实现公有，私有，混合等云部署状态上技术水位的拉起。通过API，开放数据打标等能力，并打通ModelScope生态，在数据平台上提供基于模型的智能标注能力。

KR3:推进Proxima服务基于K8s架构的云原生化，统一当前单机Search Engine与多机Distributed Engine的工程架构，实现可扩展的Poxima服务化；同时持续进行Proxima core的性能优化，完善异构硬件上的支持。基于服务化的Proxima，统一支撑达摩院各实验室与业务线的非结构化/多模态检索需求，实现整体服务的对外输出能力，支持AI多模态搜搜索产品的建设。结合ModelScope平台以及其他技术组件，打通embedding入库的通路并建立成熟外围生态。

KR4: 拉齐工程平台与各工程组件的测试评测体系，搭建体系化的工程卓越性流水线和体系化的MLOps/LLMOps系统。针对大模型领域新兴的测试评测需求，构建对应工具与平台。持续沉淀前端技术组件，高效支持平台和各产品线在前端需求。

O3: 为达摩院各个算法实验提供持续工程支持 KR1: 持续优化云上建模开发平台，并拓展国际化市场；完善多语言的SDK支持。在重点行业，重点领域继续持续投入，打造电力，绿色行业等行业的标杆项目。 KR2: 为各个实验室的算法业务创新提供有效工程支持。在搭建高效的底层工程平台和通用工程组件的基础上，通过工程能力有机组合的方式，降低各条业务线创新的工程投入成本。 KR3: 为现有的各个业务场景提供持续支持，同时推进多个自学习平台的整合，API服务的融合等工作，提升整体工程效率，包括机器使用效率，优化推理性能，提高开发人效。

O4: 打造支撑业界一流AI研究和业务创新所需的一流AI工程团队 KR1:在关键领域上引入业界一流人才，补强团队技术能力。帮助新人树立在工程团队实现技术先进性的心智，形成团队荣誉感。 KR2:基于团队目标，明确分工，清晰要求，探索AI工程领域同学培养体系，促进有意愿、有潜力的技术同学成长。 KR3:依托Tech-Talk等形式，加强团队内以及跨团队的技术分享，关注业界技术进展和细节。

○ FY24规划初步方向-质量建设
■ 各支撑的业务线会匹配在座各位老板的规划，做对应的质量建设落地
■ Aquila 、HIE 、Proxima 等工程底座能力的测试介入，和开发共建质量能力
■ Mone 对接的测试能力接入，由于大模型的优先级提升，该部分内容最近没和卫霍讨论。下周会详细讨论；
■ 大模型评测体系建设：客观、主观 ……  
○ FY24规划初步方向-前端建设
■ PD 各业务线需求落地 -- 组件化沉淀
■ AEM 统计相关，对维护项目统计相关数据，推动关停并转；
■ iTag

这块分成三层：业务层（比如数字人或其他对话系统），框架平台层（dashscope），和模型层。

○ FY24规划初步方向-质量建设
■ 各支撑的业务线会匹配在座各位老板的规划，做对应的质量建设落地
■ Aquila 、HIE 、Proxima 等工程底座能力的测试介入，和开发共建质量能力
■ Mone 对接的测试能力接入，由于大模型的优先级提升，该部分内容最近没和卫霍讨论。下周会详细讨论；
■ 大模型评测体系建设：客观、主观 ……  
○ FY24规划初步方向-前端建设
■ PD 各业务线需求落地 -- 组件化沉淀
■ AEM 统计相关，对维护项目统计相关数据，推动关停并转；
■ iTag 
○ FY24规划-横向：外包资源合池的推进

openai相当于

yingda

7/7-10 8/19

仕良对环评主要针对对是周躜作为语音实验室工程参与OpenMind前期的工作。在一定阶段，OpenMind 1.0整体上确实陷入了合作不畅，发展滞后的问题。需要在顶层明确方向。在FY23财年，周躜是承担了BU横向的ModelScope后端服务，并在后期OpenMinD 2.0项目中（即DashScope），承担了整体推理服务架构的工作，并于近期负责了整体平台工程。3.75超出期望的技术亮点，主要基于其在横向平台工程的贡献，并在这个过程中充分leverage其在语音工程架构中技术的复用，从更宽的角度去看问题。

最近绩效盘点得差不多了，下星期大家有空的时候思考一下，FY24想要做的方向。我们周四的周会上可以先做一轮初步的讨论。

同步一下状态：

确定了M6 13B模型只需要维持attention softmax的FP32精度，其他部分可以继续使用量化优化。目前已在AllSpark上跑通模型整体使用FP16+单独适配FP32 attention softmax。对比Megatron实现，以及单卡FP32实现，交叉验证通过。
多卡适配M6模型初步完成，已经能在2卡A10上加载13B模型（使用上述FP16精度，开启batch=8），不再需要A100机器。
和数字人团队联调，当前https://pre-bazinga.aliyun-inc.com/#/ 已经按照上述方式部署了M6 13B模型，包括多轮对话在内的场景测试符合预期。其中top_p参数配置尚未完全对齐，但整体不影响使用。

Ongoing： 1.之前NLP 13B模型的overnight压测已经在100台机器上完成，整体稳定。周末工程同学加班适配M6模型，争取周一能在同等规模上完成压测。 2.M6 13B模型的进一步优化进行中（FP32 softmax+A16W8混合精度），希望能单卡A10能host。 3.top_p参数适配（非高优先级）。

所以目前我判断的部署优先级（高到低）：

使用A16W8在单卡A10上部署 13B，大约下午2点左右可以ready进行测试。
开发多卡支持，增加相关通讯，使用FP16 两卡A10部署 13B，这部分开发量比A16W8慢，可能要晚上才能搞定。
单卡A10部署 2.7B FP32，作为目前不需要任何开发的方案，作为最终保底--

目前本地测试单卡的fp32，fp16是和megaton inference的Fp16，fp32都比较过id输出，都是一致的

在2卡A10上跑通。

attention softmax 变成FP16以后对结果影响很大，然后只换这个OP到FP32以后，就和FP32结果一样了。

然后检查了下AllSpark的实现，这部分原来就是FP32实现的（即使在FP16下）

DashScope核心基本功能按计划3月3日完成上线，支持用户通过PythonSDK简单几行代码，端到端实现文本生成，基本对齐OpenAI的SDK对应体验。后端基于单机多卡搭建服务多并发stress test通过，并开始多机部署以及弹性化伸缩能力的开发。

需要同时为业务负责，和为工程负责。厚薄。都可以厚做决定，人和人的关系

模型列表： GPT3-1：文本生成模型 GPT3-2：文本生成模型 Diffusion-1:文生图模型 Paraformer-1:语音识别 Paraformer-2:语音识别

自评业绩评语（可调整） 1）推动达摩院横向工程底座的搭建。ModelScope落地，协同达摩院各实验室一起打造对外技术品牌和影响力。ModelScope魔搭在中国AI社区，开始形成具备影响力的技术品牌，并覆盖了较宽频谱的AI开发者。DashScope整体MVP完成全链路功能打通，在通用底座的基础上，初步打通LLM模型的API推理全链路（GPT流式+Batch）。 2）碎片化的工程组件研发有所改观。若干基于特定场景支持的开发项目，孵化后有成为通用组件的潜力，包括HIE-AllSpark, SEAL，MOne等。数据获取，标注，管理整个链路所需的平台工具开始成型。 3）与云产品（PaaS）的系统化的联动有所增强。

通过ModelScope和DashScope等横向项目，打造达摩院底层的工程基座。ModelScope的建设和落地，成为MaaS"模型即服务"理念的第一个承载项目，协同达摩院各实验室一起打造对外技术品牌和影响力。ModelScope魔搭在中国AI社区，开始形成具备影响力的技术品牌，并覆盖了较宽频谱的AI开发者。明确了通过DashScope构建统一的AI云上API服务技术方向，已经完成MVP初步验证，并将马上承载大模型对外大规模服务的任务。DashScope通过与云生态游更紧密的合作，进一步拓展了MaaS理念的范畴，同时开始和ModelScope形成健康的互联互动。

在这些横向项目的基础上，达摩院工程积累的垂直工程组件，包括在模型推理框架，推理加速，数据获取，标注，管理等方面的积累，从之前基于特定场景支持的开发项目，转变为往通用化组件的演化，工程团队长线发展方向与路线，以及和各个实验室配合与分工合作模式开始明朗。Proxima团队明确了核心引擎通过统一Proxima服务，以及作为SQL引擎检索插件，两种方式输出：并当前重点投入统一Proxima服务的开发。

关键产出1:建设ModelScope平台，形成包括开源Library，独立站点，后端服务等在内的整套相对完整平台生态。

关键产出2:初步形成从数据获取，清理，使用，管理的全链路工具化能力。

关键产出3:Aquila推理框架以及HIE推理优化能力在支持多个实验室模型推理的过程中，组件能力本身有了更好的锤炼，为支持DashScope项目（包括LLM的推理）做了比较好的技术积累。当前成为DashScope平台系统化的组件支撑横向平台的开发与发展。

关键产出4:前端+质量保障：较好支撑了各条业务线和平台线的前端需求以及质量保障。并在迭代平台型产品的研发过程中，完善系统化的质量保障体系，以及实现前端技术的组件式复用。

2.最小规模finetune训练用到的资源量及吞吐：

3.最小规模continue training 用到的资源量及吞吐

梳理平台性横向底座 + 具体工程组件 + 实验室业务工程需求之间的关系，明确分层，相辅相成

数据平台：初步形成从数据获取，清理，使用，管理的全链路工具化能力 iTAG – 通过API开放被集成能力，并在此基础上支持自定义打标。在细化标注领域(e.g., 图片分割, 表格等)持续沉淀能力。 Virgo – 平台数据管理能力初步形成，服务所有增量数据。集成数据获取能力，并通过构建AI数据处理算子体系，来提供数据增值能力。 Proxima: Core引擎持续迭代并支持集团搜索等核心业务，梳理Proxima核心引擎输出出口，明确后续将以Proxima服务，以及各SQL引擎检索插件两种方式输出。 HIE: AllSpark在量化算子等方面的持续投入，为降低LLM推理资源消耗做好技术储备。国产化适配为倚天等自研硬件上的模型推理提供了支撑。HIE在ONNX上的通用兼容工作推进中，显存置换工作进一步完善，为输出到EAS平台做好准备。 Aquila: 完成整体重构和组件能力拆分，并与PAI-MediaFlow实现能力共享。基础框架性能与各模态算子性能持续优化，支撑了大部分达摩院推理业务。借助DashScope项目，继续完善流式能力支持，并成为统一推理组件。前端+质量保障：较好支撑各条业务线和平台线的前端需求以及质量保障。并在迭代平台型产品的研发过程中，完善系统化的质量保障体系，以及实现前端技术的组件式复用。

目前的现状：

1 模型效果：钟煌的13B效果具备可内测能力； 2 工程可扩展性：工程可扩展QPS在标准GPT-3上初步验证； 3 算力准备：机器资源（A10，V100，3090组成）可以支持本周这周末1000 QPS；

遇到的问题： 1、钟煌的13B模型有一些定制化，目前在要在多卡上跑起来，还需要一些针对性的工程优化（颖达负责解决，协调开发中）- 应答需要给出解决该问题的DDL 2、德丽的模型目前也需要A100，现在正在做工程优化，支持切片，应该后续可以支持4卡A10（目前不需要3.10支持）- 应答需要给出解决时间的排期计划，不要影响411发布。结论：A100是很大的风险。

潜在风险 1、使用多卡后，效率较低，需要使用更多的机器。（目测可以支持1000QPS）- 应答需要提前预警，协调资源。

class rwlock{ private: mutex w_mu; mutex r_mu; int reader = 0; public: rwlock(){ init(w_mu); init(r_mu); }

void write_lock(){
    lock(w_mu)
}

void write_unlock(){
    unlock(w_mu)
}


void read_lock(){
    lock(r_mu);
    if(reader == 0)
        lock(w_mu);
    
    reader++;
    
    unlock(r_mu);
}
    
void read_unlock(){
    
    lock(r_mu);
    reader--;
    if(reader == 0){
        unlock(w_ru);
    }

    unlock(r_wu);
    
}

rw_lock rw = new rw_lock();
vector a; int main(){

thread th1 = new thread();
thread th2 = new thread();
th1.join();
th2.join();

th1:
rw.write_lock()

a.push_back(1);

rw.write_unlock();

th2: rw.write_lock()

a.push_back(2);

rw.write_unlock();

}

1、管控台设计，UED资源协调完成，本周五评审。portal页面设计资源需要重新协调，预计下周产出portal页面设计初稿。 2、MVP版本对应的模型card、模型服务详情页、统计报表页面等产品设计规范进行中

➔ 阿里云产品商业化流程： 1、商业化评审材料准备：上周已经有一个初版，差成本和ROI投入及定价部分，本周补充完整。 2、商业化评审流程和加速计划：预计本周五约产管具体勾兑。 3、产品code对工程研发的影响：目前研发调试阶段使用临时code能满足需求。需要在3/17前拿到新的产品code。

本周我们需要实现提供一个13B模型支持集团内部使用的服务。要求支持1000 QPS。需要的action items：

判定使用A10 2卡还是A10 4卡机型。理论计算A10 4卡+batch=80应该优于当前的2卡+batch=16的配置需要尽早测试A10 4卡。
购买A10 4卡机器，计划使用64张卡来支持。 FP16作为兜底方案，同时A16W8集成测试和精度测试高优推进。
大规模服务的支持，确保64张卡规模上的稳定。高优先级保障固定规模服务的稳定可用性，完善测试涵盖内容，确保错误兜底。实现基础的【系统】限流能力。同时推进服务弹性自动伸缩能力的开发。
API-Key页面获取方式。本周需要起码有一个简单的页面支持用户自主获取（集团内部使用）API-Key。
开始支持dashscope backend对接多个资源池（对应不同模型，比如2个GPT+1个文生图）。
SDK完善接口设计（和服务端对齐默认参数提供方式等等）和流式实现（默认http单向流式，ws方式作为可选供用户显式指定使用）。
已知的稳定性问题（例如显存/内存缓慢泄漏等）完成修复。

周躜，谦言，沐磷，青神，路研，继烛，道仙，征明，无厚，南空，寒冬，苏奈，莱东，愚初，良莀，启翎，南空

这是我整理的 TL;DR

便宜：API 价格是$0.002 / 1K tokens，和之前curie（gpt-3 6.7B）的价格持平，是davinci（gpt-3 175B，$0.020 / 1K tokens）的十分之一。 2）Early users ：API已经早开放给Snapt， Instacart， Quizlet等公司使用了一段时间，比收集了很多feedback 3）API使用的gpt-3.5-turbo模型将持续更新，不像之前的其他模型，只是一个snapshot，同时提供一个snapsoht版本：gpt-3.5-turbo-0301 4）Dedicated instances：支持独占机器（集群）的API调用，官方建议一天使用超过4.5亿token的买dedicated instance更加划算 5）Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in：API不再收集用户数据，看来OpenAI认为已经有足够多的数据来源了 6）Please hold us accountable for improved uptime over the upcoming months：马上要支持SLA（之前无）

按照当前目标的13B和50B的模型结构估算，预期要求的卡数如下。注1: 按照峰值10000计算，非QPS。这是在给定并发下，服务不会被拒绝所需的【最少】卡数。注2: INT8精度尚未完全开发验证完毕。

13B模型, 4卡A10 host一个模型。Max Token = 1024. FP16精度(最大batch = 80)，支持峰值10000需要卡数: 512 INT8精度(最大batch = 96)，支持峰值10000需要卡数: 428

50B模型， 8卡A10 host一个模型。Max Token=1024 FP16精度（最大Batch=36）支持峰值10000需要卡数：2224 INT8精度（最大Batch=62）支持峰值10000需要卡数：1296

50B模型， 4卡A10 host一个模型。Max Token=1024 INT8精度（最大Batch=62) 支持峰值10000需要卡数：2108