職位描述
崗位職責(zé)1.AI集群方案設(shè)計:負(fù)責(zé)大規(guī)模AI訓(xùn)練/推理集群的架構(gòu)設(shè)計,涵蓋硬件選型、網(wǎng)絡(luò)拓?fù)?、存儲方案、資源管理及作業(yè)調(diào)度系統(tǒng)。2.芯片及集群架構(gòu)研究:持續(xù)跟蹤業(yè)界最新的AI芯片和AI集群產(chǎn)品相關(guān)技術(shù)發(fā)展趨勢。3.AI模型性能瓶頸分析:分析LLMs,多模態(tài)等類型模型的算力及通信需求特征,并進(jìn)行針對性的性能基準(zhǔn)測試和瓶頸分析。4.產(chǎn)品及技術(shù)文檔:撰寫詳細(xì)的AI集群產(chǎn)品技術(shù)手冊,AI集群方案設(shè)計文檔、基準(zhǔn)性能測試方案和部署指南。 任職要求1.學(xué)歷要求:碩士及以上學(xué)歷,計算機(jī)科學(xué)與技術(shù)/電子工程/微電子等相關(guān)專業(yè)。2.專業(yè)能力:具備豐富的 AI 集群或高性能計算集群的方案設(shè)計、規(guī)劃和實施經(jīng)驗。具有優(yōu)秀的文檔撰寫能力。深入了解業(yè)界主流的 AI 集群架構(gòu)設(shè)計,包括計算節(jié)點(diǎn)、存儲系統(tǒng)、高速網(wǎng)絡(luò)互聯(lián)等關(guān)鍵組件及其相互關(guān)系。熟悉主流 AI 芯片(如 NVIDIA GPU、以及其他國產(chǎn) AI 加速卡)的架構(gòu)特點(diǎn)、性能指標(biāo)及適用場景。深入了解不同類型 AI 模型(尤其是Transformer模型)的算力需求特征,包括但不限于 FLOPS、內(nèi)存帶寬、通信模式、訪存特征等,并能將其轉(zhuǎn)化為對基礎(chǔ)設(shè)施的需求。了解 Linux 操作系統(tǒng)、AI集群管理及監(jiān)控工具;了解集群網(wǎng)絡(luò),資源管理、存儲和作業(yè)調(diào)度系統(tǒng)。
企業(yè)介紹
曙光信息產(chǎn)業(yè)股份有限公司(以下簡稱“中科曙光”)作為我國核心信息基礎(chǔ)設(shè)施企業(yè),為中國及全球用戶提供創(chuàng)新、高效、可靠的IT產(chǎn)品、解決方案及服務(wù)。 公司于2014年在上海證券交易所上市(股票代碼:603019)。經(jīng)歷20余年發(fā)展,中科曙光在高端計算、存儲、安全、數(shù)據(jù)中心等領(lǐng)域擁有深厚的技術(shù)積淀和市場份額,并充分發(fā)揮高端計算優(yōu)勢,布局智能計算、云計算、大數(shù)據(jù)等領(lǐng)域的技術(shù)研發(fā),打造計算產(chǎn)業(yè)生態(tài),為科研探索創(chuàng)新、行業(yè)信息化建設(shè)、產(chǎn)業(yè)轉(zhuǎn)型升級、數(shù)字經(jīng)濟(jì)發(fā)展提供了堅實可信的支撐。 中科曙光在全國各省、自治區(qū)和直轄市均設(shè)立了分支機(jī)構(gòu),擁有國際的3大智能制造生產(chǎn)基地、5大研發(fā)中心,在全國50多個城市部署了城市云計算中心。 作為以技術(shù)創(chuàng)新為基因的科技企業(yè),中科曙光未來將持續(xù)專注于核心技術(shù)研發(fā),并與用戶、合作伙伴攜手共建應(yīng)用生態(tài)、推動產(chǎn)業(yè)進(jìn)步,以科技創(chuàng)新助力“數(shù)字中國”建設(shè),驅(qū)動經(jīng)濟(jì)高質(zhì)量發(fā)展。