視覺語音大模型 AI 開發套件( CSK6-MIX,如圖1)是圍繞 CSK6011A 芯片設計的具備豐富語音圖像功能與硬件外設的開發板,采用具備豐富組件生態的 Zephyr RTOS作為操作系統,官方提供了十幾種開源SDK,包含大模型語音交互、大模型拍照識圖、文生圖、人臉識別、頭肩追蹤、手勢識別、坐姿提醒等。
聆思科技還提供了模型訓練推理工具將自己的算法模型部署至芯片上,也可以配合這個工具構建自己的 AI 應用。
語音交互與識圖功能介紹SDK主要包含以下功能:
●語音交互:支持按鍵錄音或喚醒后通過語音與大模型進行對話
●拍照識圖:支持通過攝像頭拍攝圖像并上傳給大模型進行識別,支持依據識圖內容進行提問
●圖片生成:支持通過語音交互描述畫面內容,令大模型生成圖片并顯示至套件屏幕上
語音交互模式支持的語音交互模式多模態SDK支持三種交互方式,其特點如下:
模式 | 喚醒方式 | 交互方式 |
按鍵交互 | 按下屏幕麥克風圖標或開發板K3按鍵 | 按住按鍵說話,松開提交 |
語音喚醒(單輪) | 喚醒詞 “小美小美” | 聽到提示音 “在呢” 后進行提問,每次提問均需要喚醒 |
語音喚醒(多輪) | 喚醒詞 “小美小美” | 聽到提示音 “在呢” 后進行提問,可持續對話,當超過20秒無語音輸入時自動結束本次交互 |
語音喚醒模式當設置為語音喚醒(單輪)或語音喚醒(多輪),可通過喚醒詞 —— “小美小美” 對設備進行喚醒,當聽到 “在呢” 的提示音后,即可正常進行語音輸入。
拍照識圖在待機頁,點擊拍照按鈕即可進入取景頁面,對準要拍照的物體,點擊右側中間的拍照鍵完成抓拍,確認畫面抓拍正常后(無晃動模糊的情況),點擊右側的 √ 進行提交識別。
文生圖在設備進入語音交互狀態后,可以通過帶有繪畫意圖的提示詞讓大模型進行作畫,比如:
● “畫一個人正在使用電腦”
● 結果如圖2所示
圖片生成與設備控制功能介紹本示例主要包含以下功能:
● 可通過“小聆小聆”對設備進行喚醒
● 可通過語音交互與大模型進行對話
● 可通過語音交互使用大模型繪制圖片并顯示在屏幕上
● 可通過語音交互通過大模型控制屏幕顯示的顏色
● 支持通過LSPlatfrom接入自己的大模型應用
大模型語音對話功能● 我們可以通過 “小聆小聆” 喚醒詞對開發套件進行喚醒
● 套件被正常喚醒時,會播放應答語 —— "在呢"
● 此時我們可以接著對開發套件說出我們的問題,比如:“什么是大模型?”
● 稍等片刻后,開發套件將播放返回的答案
大模型作畫● 我們可以通過 “小聆小聆” 喚醒詞對開發套件進行喚醒
● 套件被正常喚醒時,會播放應答語 —— "在呢"
● 此時我們可以接著對開發套件以 “畫xx” 的句式說出我們希望它繪制的圖像,比如:“畫一只大熊貓”(結果如圖3所示)
● 稍等片刻后,開發套件將在顯示屏上顯示大模型根據我們需求生成的圖片
大模型控制設備● 我們可以通過 “小聆小聆” 喚醒詞對開發套件進行喚醒
● 套件被正常喚醒時,會播放應答語 —— "在呢"
● 此時我們可以接著對開發套件件以 “把屏幕設置成xx” 的句式說出希望屏幕顯示的顏色,比如:“把屏幕設置成大海一樣的顏色”
● 稍等片刻后,開發套件將把屏幕設置成理解了我們描述后的顏色
● 結果如圖4所示
智能問答與坐姿檢測功能介紹本示例功能包含:
● 坐姿檢測:通過攝像頭檢測人員坐姿,并在出現不良坐姿時進行提醒(紅燈閃爍)
● 語音識別:支持離線識別指定喚醒詞并進行錄音
● 網絡:通過 WIFI 芯片接入網絡,對接聆思大模型平臺,支持與大模型進行對話
● 屏顯:通過顯示屏展示應用相關動畫界面
體驗大模型語音對話功能● 我們可以通過 “小聆小聆” 喚醒詞對開發套件進行喚醒
● 套件被正常喚醒時,會播放應答語 —— "在呢"
● 此時我們可以接著對開發套件說出我們的問題,比如:“什么是大模型?”
● 稍等片刻后,開發套件將播放返回的答案
體驗坐姿檢測本示例工程中默認啟用了坐姿檢測功能,當攝像頭識別到不良坐姿時,開發板上也將閃爍紅色 LED 進行提醒,同時,我們也可通過 PC 工具查看實時拍攝的圖像與坐姿檢測結果。
本示例運行時,攝像頭將持續拍攝圖像并并送入坐姿檢測算法進行處理,當檢測到畫面中出現不良坐姿(如趴桌、手托臉等)時,將閃爍紅色 LED 進行提醒。
借助串口連接即可看到預覽圖和識別結果,如圖5所示。
相關資料