Interspeech 2026 第二屆音頻編碼器能力挑戰賽正式啟動--星空人工智能美女福利导航網

國際語音頂級會議 Interspeech 2026 將於2026年9月在澳大利亞悉尼舉行。由小米、薩裏大學、清華大學、海天瑞聲聯合發起的第二屆 Audio Encoder Capability Challenge（AECC）音頻編碼器能力挑戰賽將同步亮相 Interspeech 2026，目前已正式開放報名。

微信圖片_20251215111609_632_120.jpg

當前，音頻大語言模型（LALMs）發展迅速，但大多數主流模型在音頻前端編碼器上選擇非常單一，幾乎均基於 OpenAI Whisper Encoder。這種對單一美女福利导航的依賴不利於模型架構的多樣化探索，也限製了 LALMs 整體能力的進一步提升。為應對音頻理解能力不斷增長的需求，本次挑戰賽將聚焦於音頻編碼器這一核心模塊，重點評估其在複雜真實場景下的理解與特征表示能力。

評測方法

本次挑戰賽采用統一的端到端訓練和評估框架。參賽者隻需提交預訓練的編碼器模型，下遊任務的訓練和評估由主辦方完成。主辦方提供了開源的評估係統 XARES-LLM。該係統基於用戶提供的音頻編碼器自動訓練一個典型的 LALM。該係統會自動下載訓練數據，訓練模型，然後測試各種下遊任務，並為每個任務提供分數，如下圖所示。

微信圖片_20251215111611_633_120.png

參賽者並不需要自己運行 XARES-LLM，而隻需把音頻編碼器按照一個簡單的接口說明和示例封裝，通過郵件發送給主辦方即可，大模型的訓練和評估由主辦方完成。當然，由於 XARES-LLM 是開源的，且隻需 GTX4090 即可完成訓練和評估，參賽者也可以自行使用該係統訓練大模型、評估待提交的編碼器的性能，並和主辦方提供的基線係統比較。

訓練數據

和大多數比賽不同，本挑戰賽不僅重視模型設計和訓練，也同樣重視數據的收集和利用。主辦方不規定具體的訓練數據集。參賽者使用的訓練數據必須是公開可訪問的，不得使用私有保密數據。參賽的模型既可以基於任何開源的預訓練模型參數，也可以從頭訓練。

同時，海天瑞聲公司為比賽提供了一個補充數據集，供參賽者免費使用。該數據集從八個商用數據集（King-ASR-457、King-ASR-958 等）提取構建而成。其內容涵蓋了豐富的日常環境噪聲，具體包括書店、健身房、地鐵、餐廳等多種室內外場景的背景噪聲，以及家庭環境下的不同距離背景噪聲。此外，數據集還收錄了水流、腳步聲、戶外窗邊等特定非語音幹擾聲，以及地鐵車廂在不同時段的運行噪聲。嘯叫類數據則包含了通話、遊戲和直播場景下的純淨嘯叫聲。車輛相關環境噪聲也是其重要組成部分，如機械噪聲、空調運行聲和開窗風噪，還有咖啡館、醫院、市場、步行街等生活場景的實錄環境聲。

微信圖片_20251215113200_651_120.png

微信圖片_20251215113419_655_120.png

報名和提交方法

報名階段請於 2026 年 1 月 25 日11:59 PM AoE前完成賽事報名信息填寫。了解詳情可移步至海天瑞聲公眾號。

模型準備與自檢參賽者需封裝自己的音頻編碼器，並使用主辦方提供的檢測工具完成編碼器合規性檢查，確保模型接口與功能符合賽事要求。

模型提交請於 2026 年 2 月 12 日11:59 PM AoE 前，將編碼器代碼及模型文件統一打包為 ZIP 文件，並通過郵件方式提交至主辦方指定郵箱。

美女福利导航報告提交請於 2026 年 2 月 25 日 11:59 PM AoE前，把美女福利导航報告 PDF 文件郵件發送給主辦方。美女福利导航報告可以同時在 Interspeech 官方提交係統作為會議論文投稿。

繼續閱讀：

星空人工智能美女福利导航網倡導尊重與保護知識產權。如發現本站文章存在版權等問題，煩請30天內提供版權疑問、身份證明、版權證明、聯係方式等發郵件至1851688011@qq.com美女直播全婐APP免费下载將及時溝通與處理。！：首頁 > 新質生產力 » Interspeech 2026 第二屆音頻編碼器能力挑戰賽正式啟動

相關推薦