Yingda
/

dummymodel2

+1、关于企业专属大模型人力协调。
+昨晚经过海青和应答进一步确认，结论为非DashScope部分，与430专属大模型界面相关前后端全部由行解研提供人力支持。
+今天上午11点，7位小二（前端*2，测试*2，后端*3）全部确认，来自行解研3部（绍隆团队）。已经完成空印和对方对接。下午开始具体的工作对接，目前运行良好。
+王超对于python代码性能分析优化和调试都有着比较深厚的积累，并且开发了nitro编译优化等比较硬核的工具，并在针对性的计算密集任务上获取了比较好的效果。但是之前在NLP工程团队，对于业务工程方面的工作没有比较好的align，实际落地产出的工作有限。在这个实际业务产出有限的前提下，全年的绩效为3.5-。这样的绩效某种程度上，与同学能力和业务需求有所不匹配相关，同学本身在python领域的技术能力比较solid，也被大团队所认可，接下来调整到aquila/proxima团队做核心技术工作，期望能有更好的技术产出。
+这个背景下，在尊重FY23 3.5-绩效决定的前提下，对于王超将来对团队的贡献依然有所期待，所以依然给予一定的调薪分配。
+【O-组织】围绕达摩院AI板块业务目标，从技术发展趋势和产品策略出发，基于定义的目标，形成项目组，并能设计出在组织、人才、文化配套方案。从而围绕“生产力-技术创新突破”，“生产效率-技术孵化周期”，各技术团队能通力合作，基础研究+领域应用组织调度系统和方法建设，提升组织效率和效能。
+KR1：围绕业务目标：发布多模态大模型应用（Bazinga，实现大模型服务国内第一梯队），基于人才盘点、e表等重要环节人才信息，确定淘汰、核心人员名单，并在FY24财年中闭环review和跟进。
+KR2：软的部分-润滑剂。大模型的技术变革带来组织和人员调整，沟通方案需要有设计，在满足技术业务需求的情况下，充分考虑个人的发展诉求。做到精英之间同频共振，互相尊重、激发，加快团队转型效率与节奏。
+KR3：OKR保障：提升OKR质量，从工作习惯的适应到工作方式的转变。板块重点项目、各实验室内部（周会、月会、月报等围绕OKR进行）确保业务从目标、策略到执行层层要和，促进生产关系协同。运用线上化的工具，作为组织高效运转的抓手，推动目标共识、过程管理、结果评价，实现目标与机制的闭环。
+KR4：围绕板块重点方向，算法（基础研究）、算法（应用落地）、工程、产品建立沟通机制（战役/项目组等），提升决策效率。做到目标通、关键人才信息通，提升核心团队运行效率，沉淀达摩院特色技术精英共振机制。
+● ■ 针对分布式git升级做了一轮摸底，测试发现当前git访问瓶颈在于公网带宽，在带宽充足时新方案提升到3倍。同时目前用户反馈的notebook git速度慢问题定位为跨Region访问git仓库，git多地域分发能力技术方案调研中。 ■ Inference API、模型一键部署等相关需求技术方案调研中，Notebook 支持云资源付费链路开发中。
+O1:通过“模型+系统平台+云”联合生态的构建，实现云+智能的全栈能力输出，支持达摩院与云AI对外整体技术影响力的形成。树立承载“模型即服务（MaaS）”理念的行业标杆。
+KR1: 完成DashScope的产品化。以大模型的实际场景为切入点，在统一的技术底座上，为各种模型提供云原生的高效的推理，微调，训练，和数据回流等能力，提供多种模态能力AI的被集成接口，以及核心AI资产在云生态上的自闭环。实现达摩院当前大部分头部API往DashScope平台的迁移和聚合，并通过DashScope上的全链路优化，为迁移的API提供更加高效的推理训练，以及包括版本管理在内的完整MLOps功能。
+KR2: 完善多种模态的模型在ModelScope library以及modelscope站点demo/创空间/工具箱等全方位生态接入方式，完善站点本身能力以及与云生态的互动，为模型贡献者，与模型使用者持续提供便利。紧跟领域最新模型研究进展，确保先进模型的高效及时接入，并选择性建设LLM效果评测等高需求工具。关注模型部署，体验，和应用搭建的全链路体验。依托云PaaS平台，完善推理，(分布式)训练与部署能力。通过对各领域模型体系结构梳理，形成ModelScope library技术特点。探索在新兴或现有领域中，具备特色的，能与Transformers，Diffusers等对标的技术组件。继续增强ModelScope在国内模型社区领先地位的同时，对标国际竞品。坚持建设精品模型社区的理念，依托达摩院以及其他机构高质模型的先发优势的同时，探索平台特有功能点，并将相关工作整理为论文发表，形成一流模型社区的国际影响力。
+KR3: 实现ModelScope和DashScope两个横向平台互联互动，落实ModelScope为DashScope的引流作用，以及DashScope为ModelScope模型生态提供生产化，促进相辅相成的模型数据生态的形成。注重沉淀两个系统上通用的技术能力同时，深入探索不同场景上的针对性改进与优化。有意识地促进两个平台间技术的复用与融合，以及功能点的互补。建设和输出业界一流的AI生态+基础设施。
+O2：实现核心工程组件的通用化和服务化能力，为各个实验室提供系统化支持的同时，实现基于云原生底座的对外服务能力透传。
+KR1:将HIE/Aquila等技术组件，打造为支持各模态模型推理加速的通用底座。通过在DashScope项目上的打磨，将
+HIE算子优化实现，AllSpark体系的建设，Aquila推理框架等方面，通过一个体系化、系统自适应化的方式去对外输出，支持各类模型的（自适应）推理优化的能力。这包括针对各类场景（LLM，文生图，语音等等）的具体优化，以及在这个基础上，系统化地与PAI-Blade等优化框架对接，支持自动化的量化能力，和与PAI-EAS协同探索多机多卡推理能力等方面的工作。同时探索Aquila与HIE对外独立服务化的方案。
+KR2:梳理数据获取->清理/转换/标注->管理全链路，完善AI数据处理算子生态，提供多语言数据支持等能力，对标业界一流算法模型研发，尤其是各领域大模型所需的高质量数据支持能力。推动各数据组件的云化服务输出，通过轻量化部署等技术手段，实现公有，私有，混合等云部署状态上技术水位的拉起。通过API，开放数据打标等能力，并打通ModelScope生态，在数据平台上提供基于模型的智能标注能力。
+KR3:推进Proxima服务基于K8s架构的云原生化，统一当前单机Search Engine与多机Distributed Engine的工程架构，实现可扩展的Poxima服务化；同时持续进行Proxima core的性能优化，完善异构硬件上的支持。
+基于服务化的Proxima，统一支撑达摩院各实验室与业务线的非结构化/多模态检索需求，实现整体服务的对外输出能力，支持AI多模态搜搜索产品的建设。结合ModelScope平台以及其他技术组件，打通embedding入库的通路并建立成熟外围生态。
+KR4: 拉齐工程平台与各工程组件的测试评测体系，搭建体系化的工程卓越性流水线和体系化的MLOps/LLMOps系统。针对大模型领域新兴的测试评测需求，构建对应工具与平台。持续沉淀前端技术组件，高效支持平台和各产品线在前端需求。
+O3: 为达摩院各个算法实验提供持续工程支持
+KR1: 持续优化云上建模开发平台，并拓展国际化市场；完善多语言的SDK支持。在重点行业，重点领域继续持续投入，打造电力，绿色行业等行业的标杆项目。
+KR2: 为各个实验室的算法业务创新提供有效工程支持。在搭建高效的底层工程平台和通用工程组件的基础上，通过工程能力有机组合的方式，降低各条业务线创新的工程投入成本。
+KR3: 为现有的各个业务场景提供持续支持，同时推进多个自学习平台的整合，API服务的融合等工作，提升整体工程效率，包括机器使用效率，优化推理性能，提高开发人效。
+O4: 打造支撑业界一流AI研究和业务创新所需的一流AI工程团队
+KR1:在关键领域上引入业界一流人才，补强团队技术能力。帮助新人树立在工程团队实现技术先进性的心智，形成团队荣誉感。
+KR2:基于团队目标，明确分工，清晰要求，探索AI工程领域同学培养体系，促进有意愿、有潜力的技术同学成长。
+KR3:依托Tech-Talk等形式，加强团队内以及跨团队的技术分享，关注业界技术进展和细节。
+    ○ FY24规划初步方向-质量建设
+    ■ 各支撑的业务线会匹配在座各位老板的规划，做对应的质量建设落地
+    ■ Aquila 、HIE 、Proxima 等工程底座能力的测试介入，和开发共建质量能力
+    ■ Mone 对接的测试能力接入，由于大模型的优先级提升，该部分内容最近没和卫霍讨论。下周会详细讨论；
+    ■ 大模型评测体系建设：客观、主观 ……
+    ○ FY24规划初步方向-前端建设
+    ■ PD 各业务线需求落地 -- 组件化沉淀
+    ■ AEM 统计相关，对维护项目统计相关数据，推动关停并转；
+    ■ iTag
+这块分成三层：业务层（比如数字人或其他对话系统），框架平台层（dashscope），和模型层。
+    ○ FY24规划初步方向-质量建设
+    ■ 各支撑的业务线会匹配在座各位老板的规划，做对应的质量建设落地
+    ■ Aquila 、HIE 、Proxima 等工程底座能力的测试介入，和开发共建质量能力
+    ■ Mone 对接的测试��力接入，由于大模型的优先级提升，该部分内容最近没和卫霍讨论。下周会详细讨论；
+    ■ 大模型评测体系建设：客观、主观 ……
+    ○ FY24规划初步方向-前端建设
+    ■ PD 各业务线需求落地 -- 组件化沉淀
+    ■ AEM 统计相关，对维护项目统计相关数据，推动关停并转；
+    ■ iTag
+    ○ FY24规划-横向：外包资源合池的推进
+openai相当于
+yingda
+7/7-10
+8/19
+仕良对环评主要针对对是周躜作为语音实验室工程参与OpenMind前期的工作。在一定阶段，OpenMind 1.0整体上确实陷入了合作不畅，发展滞后的问题。需要在顶层明确方向。在FY23财年，周躜是承担了BU横向的ModelScope后端服务，并在后期OpenMinD 2.0项目中（即DashScope），承担了整体推理服务架构的工作，并于近期负责了整体平台工程。3.75超出期望的技术亮点，主要基于其在横向平台工程的贡献，并在这个过程中充分leverage其在语音工程架构中技术的复用，从更宽的角度去看问题。
+最近绩效盘点得差不多了，下星期大家有空的时候思考一下，FY24想要做的方向。我们周四的周会上可以先做一轮初步的讨论。
+同步一下状态：
+1. 确定了M6 13B模型只需要维持attention softmax的FP32精度，其他部分可以继续使用量化优化。目前已在AllSpark上跑通模型整体使用FP16+单独适配FP32 attention softmax。对比Megatron实现，以及单卡FP32实现，交叉验证通过。
+2. 多卡适配M6模型初步完成，已经能在2卡A10上加载13B模型（使用上述FP16精度，开启batch=8），不再需要A100机器。
+3. 和数字人团队联调，当前https://pre-bazinga.aliyun-inc.com/#/ 已经按照上述方式部署了M6 13B模型，包括多轮对话在内的场景测试符合预期。其中top_p参数配置尚未完全对齐，但整体不影响使用。
+Ongoing：
+1.之前NLP 13B模型的overnight压测已经在100台机器上完成，整体稳定。周末工程同学加班适配M6模型，争取周一能在同等规模上完成压测。
+2.M6 13B模型的进一步优化进行中（FP32 softmax+A16W8混合精度），希望能单卡A10能host。
+3.top_p参数适配（非高优先级）。
+所以目前我判断的部署优先级 （高到低）：
+1.  使用A16W8在单卡A10上部署 13B， 大约下午2点左右可以ready进行测试。
+2.  开发多卡支持， 增加相关通讯， 使用FP16 两卡A10部署 13B， 这部分开发量比A16W8慢， 可能要晚上才能搞定。
+3. 单卡A10部署 2.7B FP32， 作为目前不需要任何开发的方案， 作为最终保底--
+目前本地测试单卡的fp32，fp16是和megaton inference的Fp16，fp32都比较过id输出，都是一致的
+在2卡A10上跑通。
+attention softmax 变成FP16以后对结果影响很大， 然后只换这个OP到FP32以后， 就和FP32结果一样了。
+然后检查了下AllSpark的实现， 这部分原来就是FP32实现的（即使在FP16下）
+DashScope核心基本功能按计划3月3日完成上线，支持用户通过PythonSDK简单几行代码，端到端实现文本生成，基本对齐OpenAI的SDK对应体验。后端基于单机多卡搭建服务多并发stress test通过，并开始多机部署以及弹性化伸缩能力的开发。
+需要同时为业务负责，和为工程负责。
+厚薄。都可以厚
+做决定，人和人的关系
+模型列表：
+GPT3-1：文本生成模型
+GPT3-2：文本生成模型
+Diffusion-1:文生图模型
+Paraformer-1:语音识别
+Paraformer-2:语音识别
+自评业绩评语（可调整）
+1）推动达摩院横向工程底座的搭建。ModelScope落地，协同达摩院各实验室一起打造对外技术品牌和影响力。ModelScope魔搭在中国AI社区，开始形成具备影响力的技术品牌，并覆盖了较宽频谱的AI开发者。DashScope整体MVP完成全链路功能打通，在通用底座的基础上，初步打通LLM模型的API推理全链路（GPT流式+Batch）。
+2）碎片化的工程组件研发有所改观。若干基于特定场景支持的开发项目，孵化后有成为通用组件的潜力，包括HIE-AllSpark, SEAL，MOne等。数据获取，标注，管理整个链路所需的平台工具开始成型。
+3）与云产品（PaaS）的系统化的联动有所增强。
+通过ModelScope和DashScope等横向项目，打造达摩院底层的工程基座。ModelScope的建设和落地，成为MaaS"模型即服务"理念的第一个承载项目，协同达摩院各实验室一起打造对外技术品牌和影响力。ModelScope魔搭在中国AI社区，开始形成具备影响力的技术品牌，并覆盖了较宽频谱的AI开发者。明确了通过DashScope构建统一的AI云上API服务技术方向，已经完成MVP初步验证，并将马上承载大模型对外大规模服务的任务。DashScope通过与云生态游更紧密的合作，进一步拓展了MaaS理念的范畴，同时开始和ModelScope形成健康的互联互动。
+在这些横向项目的基础上，达摩院工程积累的垂直工程组件，包括在模型推理框架，推理加速，数据获取，标注，管理等方面的积累，从之前基于特定场景支持的开发项目，转变为往通用化组件的演化，工程团队长线发展方向与路线，以及和各个实验室配合与分工合作模式开始明朗。Proxima团队明确了核心引擎通过统一Proxima服务，以及作为SQL引擎检索插件，两种方式输出：并当前重点投入统一Proxima服务的开发。
+关键产出1:建设ModelScope平台，形成包括开源Library，独立站点，后端服务等在内的整套相对完整平台生态。
+关键产出2:初步形成从数据获取，清理，使用，管理的全链路工具化能力。
+关键产出3:Aquila推理框架以及HIE推理优化能力在支持多个实验室模型推理的过程中，组件能力本身有了更好的锤炼，为支持DashScope项目（包括LLM的推理）做了比较好的技术积累。当前成为DashScope平台系统化的组件支撑横向平台的开发与发展。
+关键产出4:前端+质量保障：较好支撑了各条业务线和平台线的前端需求以及质量保障。并在迭代平台型产品的研发过程中，完善系统化的质量保障体系，以及实现前端技术的组件式复用。
+2.最小规模finetune训练用到的资源量及吞吐：
+3.最小规模continue training 用到的资源量及吞吐
+梳理平台性横向底座 + 具体工程组件 + 实验室业务工程需求之间的关系，明确分层，相辅相成
+数据平台：初步形成从数据获取，清理，使用，管理的全链路工具化能力
+iTAG – 通过API开放被集成能力，并在此基础上支持自定义打标。在细化标注领域(e.g., 图片分割, 表格等)持续沉淀能力。
+Virgo – 平台数据管理能力初步形成，服务所有增量数据。集成数据获取能力，并通过构建AI数据处理算子体系，来提供数据增值能力。
+Proxima: Core引擎持续迭代并支持集团搜索等核心业务，梳理Proxima核心引擎输出出口，明确后续将以Proxima服务，以及各SQL引擎检索插件两种方式输出。
+HIE: AllSpark在量化算子等方面的持续投入，为降低LLM推理资源消耗做好技术储备。国产化适配为倚天等自研硬件上的模型推理提供了支撑。HIE在ONNX上的通用兼容工作推进中，显存置换工作进一步完善，为输出到EAS平台做好准备。
+Aquila: 完成整体重构和组件能力拆分，并与PAI-MediaFlow实现能力共享。基础框架性能与各模态算子性能持续优化，支撑了大部分达摩院推理业务。借助DashScope项目，继续完善流式能力支持，并成为统一推理组件。
+前端+质量保障：较好支撑各条业务线和平台线的前端需求以及质量保障。并在迭代平台型产品的研发过程中，完善系统化的质量保障体系，以及实现前端技术的组件式复用。
+目前的现状：
+1 模型效果：钟煌的13B效果具备可内测能力；
+2 工程可扩展性：工程可扩展QPS在标准GPT-3上初步验证；
+3 算力准备：机器资源（A10，V100，3090组成）可以支持本周这周末1000 QPS；
+遇到的问题：
+1、钟煌的13B模型有一些定制化，目前在要在多卡上跑起来，还需要一些针对性的工程优化（颖达负责解决，协调开发中）- 应答需要给出解决该问题的DDL
+2、德丽的模型目前也需要A100，现在正在做工程优化，支持切片，应该后续可以支持4卡A10（目前不需要3.10支持）- 应答需要给出解决时间的排期计划，不要影响411发布。
+结论：A100是很大的风险。
+潜在风险
+1、使用多卡后，效率较低，需要使用更多的机器。（目测可以支持1000QPS）- 应答需要提前预警，协调资源。
+class rwlock{
+private:
+    mutex w_mu;
+    mutex r_mu;
+    int reader = 0;
+public:
+	rwlock(){
+    	init(w_mu);
+        init(r_mu);
+    }
+    void write_lock(){
+    	lock(w_mu)
+    }
+    void write_unlock(){
+    	unlock(w_mu)
+    }
+    void read_lock(){
+    	lock(r_mu);
+        if(reader == 0)
+        	lock(w_mu);
+        reader++;
+        unlock(r_mu);
+    }
+    void read_unlock(){
+        lock(r_mu);
+        reader--;
+        if(reader == 0){
+        	unlock(w_ru);
+        }
+        unlock(r_wu);
+    }
+rw_lock rw = new rw_lock();
+vector<int> a;
+int main(){
+    thread th1 = new thread();
+    thread th2 = new thread();
+    th1.join();
+    th2.join();
+th1:
+    rw.write_lock()
+    a.push_back(1);
+	rw.write_unlock();
+th2:
+	rw.write_lock()
+    a.push_back(2);
+	rw.write_unlock();
+}
+}
+1、管控台设计，UED资源协调完成，本周五评审。portal页面设计资源需要重新协调，预计下周产出portal页面设计初稿。
+2、MVP版本对应的模型card、模型服务详情页、统计报表页面等产品设计规范进行中
+➔ 阿里云产品商业化流程：
+1、商业化评审材料准备：上周已经有一个初版，差成本和ROI投入及定价部分，本周补充完整。
+2、商业化评审流程和加速计划：预计本周五约产管具体勾兑。
+3、产品code对工程研发的影响：目前研发调试阶段使用临时code能满足需求。需要在3/17前拿到新的产品code。
+本周我们需要实现提供一个13B模型支持集团内部使用的服务。要求支持1000 QPS。需要的action items：
+1. 判定使用A10 2卡还是A10 4卡机型。理论计算A10 4卡+batch=80应该优于当前的2卡+batch=16的配置需要尽早测试A10 4卡。
+2. 购买A10 4卡机器，计划使用64张卡来支持。 FP16作为兜底方案，同时A16W8集成测试和精度测试高优推进。
+3. 大规模服务的支持，确保64张卡规模上的稳定。高优先级保障固定规模服务的稳定可用性，完善测试涵盖内容，确保错误兜底。实现基础的【系统】限流能力。同时推进服务弹性自动伸缩能力的开发。
+4. API-Key页面获取方式。本周需要起码有一个简单的页面支持用户自主获取（集团内部使用）API-Key。
+5. 开始支持dashscope backend对接多个资源池（对应不同模型，比如2个GPT+1个文生图）。
+6. SDK完善接口设计（和服务端对齐默认参数提供方式等等）和流式实现（默认http单向流式，ws方式作为可选供用户显式指定使用）。
+7. 已知的稳定性问题（例如显存/内存缓慢泄漏等）完成修复。
+周躜，谦言，沐磷，青神，路研，继烛，道仙，征明，无厚，南空，寒冬，苏奈，莱东，愚初，良莀，启翎，南空
+这是我整理的 TL;DR
+1) 便宜：API 价格是$0.002 / 1K tokens，和之前curie（gpt-3 6.7B）的价格持平，是davinci（gpt-3 175B，$0.020 / 1K tokens）的十分之一。
+2）Early users ：API已经早开放给Snapt， Instacart， Quizlet等公司使用了一段时间，比收集了很多feedback
+3）API使用的gpt-3.5-turbo模型将持续更新，不像之前的其他模型，只是一个snapshot，同时提供一个snapsoht版本：gpt-3.5-turbo-0301
+4）Dedicated instances：支持独占机器（集群）的API调用，官方建议一天使用超过4.5亿token的买dedicated instance更加划算
+5）Data submitted through the API is no longer used for service improvements (including model training) unless the organization opts in：API不再收集用户数据，看来OpenAI认为已经有足够多的数据来源了
+6）Please hold us accountable for improved uptime over the upcoming months：马上要支持SLA（之前无）
+按照当前目标的13B和50B的模型结构估算，预期要求的卡数如下。
+注1: 按照峰值10000计算，非QPS。这是在给定并发下，服务不会被拒绝所需的【最少】卡数。
+注2: INT8精度尚未完全开发验证完毕。
+13B模型, 4卡A10 host一个模型。Max Token = 1024.
+FP16精度(最大batch = 80)，支持峰值10000需要卡数: 512
+INT8精度(最大batch = 96)，支持峰值10000需要卡数: 428
+50B模型， 8卡A10 host一个模型。Max Token=1024
+FP16精度（最大Batch=36）支持峰值10000需要卡数：2224
+INT8精度（最大Batch=62）支持峰值10000需要卡数：1296
+50B模型， 4卡A10 host一个模型。Max Token=1024
+INT8精度（最大Batch=62) 支持峰值10000需要卡数：2108