一種基于VAD算法打斷智能語音機器人對話的方法與流程

文檔序號:17188754發布日期:2019-03-22 21:44
一種基于VAD算法打斷智能語音機器人對話的方法與流程

本發明涉及智能語音對話領域,尤其涉及一種基于VAD算法打斷智能語音機器人對話的方法。



背景技術:

隨著計算機和人工智能技術的飛速發展,智能語音對話被廣泛的開發和應用,智能機器人已經越來越多地走進了人們的生活和工作中,生活和工作中的機器人應用領域越來越廣,智能機器人時代即將到來,并且大量在社會中廣泛使用。

目前,可以通過ASR(實時語音識別)與NLP(自然語言理解),實現機器實時理解人類聲音語言,在客服、銷售等場景進行AI智能溝通,對人類聲音語言進行大規模語料訓練,在指定場景下,可以得到識別質量較好的識別模型,機器人將人類的聲音實時發送到ASR中進行識別,得到文本形式的識別結果,用于關鍵字匹配,或者語義處理,得到預設的問題與答案,在以音頻形式播放出來,以匹配人與機器的語音溝通。

雖然現有方案能支持機器人與人類的語言溝通,但是基本以人與機器人之間一問一答的形式為主,很難做到人類水平的插話交流,比較死板且不自然。針對訪客的突然插話接入,機器人若無動于衷,顯得不禮貌,交流不友好,用戶必須聽完完整的機器人預設話術,且在機器人話術輸出的時段內無法打斷或提出疑問,在溝通上難以實現及時、快捷;另一方面,訪客的插話打斷,可能有更迫切的問題詢問,若不及時切換到相關問題節點上,會浪費客戶時間。綜上所述,現有智能語音機器人與人的語音交流方案在交互體驗、溝通效率上仍有待提高。



技術實現要素:

為了提高智能語音機器人的話術水平,實現用戶隨時打斷智能語音機器人語音輸出、智能語音機器人在溝通中切換話術的功能,本發明提出了一種基于VAD算法打斷智能語音機器人對話的方法。

本發明采用如下技術方案:

一種基于VAD算法打斷智能語音機器人對話的方法,所述方法包括:

S1、用戶在網頁界面通過網頁即時通信模塊發起語音交流,智能語音機器人按照預

設話術進行語音播放;

S2、智能語音機器人內的語音活動檢測模塊通過VAD算法實時檢測判斷用戶是否發

出聲音,并過濾背景聲音與噪音;

S3、若語音活動檢測模塊識別用戶發出聲音,中斷智能語音機器人的語音輸出,等

待用戶發言結束;

S4、智能語音機器人實時將用戶發言音頻數據發送至實時語音識別模塊識別用戶發

言內容,并通過自然語言理解模塊識別用戶意圖;

S5、語音活動檢測模塊識別用戶發言結束,智能語音機器人根據識別用戶意圖改變,

選擇切換新話術節點;識別用戶意圖未改變,繼續當前話術節點。

作為優選,所述智能語音機器人還包括第一SIP客戶端,所述網頁界面還包括第二

SIP客戶端,所述第一SIP客戶端通過會話發起協議、實時傳輸協議向第二SIP客戶端播放話術內容,所述網頁即時通信模塊通過會話發起協議、實時傳輸協議向智能語音機器人傳輸用戶的實時音頻數據。

作為優選,所述通過VAD算法判斷用戶是否發出聲音的步驟如下:

(1)所述語音活動檢測模塊基于用戶發言的音頻數據計算最近1秒內復數個采樣節

點的聲音頻率;

(2)設置閾值,當采樣節點的聲音頻率達到閾值時,則將采樣節點計為一次有效

音頻;

(3)連續n個的采樣節點均為有效音頻時,計為一次有聲片段;

(4)一段時間內的有聲片段超過m個時,則判斷當前用戶處于發言狀態。

本發明的有益效果是:1、針對現有方案的不足,本發明提供了基于VAD算法的打斷智能語音機器人對話方案,以提升交互體驗、提高溝通效率;2、本發明包括且不限于通過各類VAD智能聲音檢測技術檢查智能語音機器人與用戶實時交流過程中,對用戶意圖的識別、切換,智能語音機器人及時響應訪客問題與意圖,做到更接近人類日常溝通的體驗;3、用戶或智能語音機器人發起語音交流后,一直實時檢查用戶是否發聲,識別并做語音分析,檢查當前對話用戶更明確的問題與意圖,并在預設的話術中尋找相關回復;4、對話過程中,智能語音機器人在進行當前節點的語音交流時,也一直通過自然語言理解模塊識別用戶最新意圖,且在識別到最新意圖時,及時響應,將進行的對話保留現場,切換到新的對話節點上;5、新的對話節點完成后,智能語音機器人會自動切回之前通話節點,繼續交流,也包括用戶持續打斷對話,并不斷切換至新的節點;6、在機器人與訪客實時語音交流的過程中實時檢測客戶聲音,并識別意圖,及時響應最新的訪客問題。能帶來更友好、更近乎人類交流的服務體驗,大大提升溝通效率與交互體驗。

附圖說明

圖1是本發明的流程示意圖;

圖2是本發明中通過VAD算法判斷用戶是否發出聲音流程示意圖;

圖3是本發明中智能語音機器人與網頁界面的結構示意圖。

圖1-3中:1、智能語音機器人,2、第一SIP客戶端,3、實時語音識別模塊,4、自然語言理解模塊,5、語音活動檢測模塊,6、網頁界面,7、網頁即時通信模塊,8、第二SIP客戶端。

具體實施方式

下面通過具體實施例,并結合附圖,對本發明的技術方案作進一步的具體描述:

實施例:如附圖1-3所示的一種基于VAD算法打斷智能語音機器人對話的方法,所

述方法包括:

S1、用戶在網頁界面6通過網頁即時通信模塊7發起語音交流,智能語音機器人1

按照預設話術進行語音播放;

S2、智能語音機器人1內的語音活動檢測模塊5通過VAD算法實時檢測判斷用戶是

否發出聲音,并過濾背景聲音與噪音;

S3、若語音活動檢測模塊5識別用戶發出聲音,中斷智能語音機器人1的語音輸出,

等待用戶發言結束;

S4、智能語音機器人1實時將用戶發言音頻數據發送至實時語音識別模塊3識別用

戶發言內容,并通過自然語言理解模塊4識別用戶意圖;

S5、語音活動檢測模塊5識別用戶發言結束,智能語音機器人1根據識別用戶意圖

改變,選擇切換新話術節點;識別用戶意圖未改變,繼續當前話術節點。

當用戶或智能語音機器人1發起語音交流時,智能語音機器人1會實時將訪客聲音送入實時語音識別模塊3和自然語言理解模塊4中進行語音識別與語音處理,分析語音內容與用戶意圖;在智能語音機器人1播放語音時,同時實時檢測用戶是否發聲,并過濾背景聲與噪音,當語音活動檢測模塊5中的VAD算法識別到用戶說話時,中斷智能語音機器人1語音輸出,等待用戶說話結束;同時將用戶的音頻數據輸送到實時語音識別模塊3和自然語言理解模塊4中識別用戶說話內容與意圖,匹配相關問題和回復話術;當用戶說話結束時,語音活動檢測模塊5識別出用戶發言結束,智能語音機器人1根據最新匹配的話術內容,進行語音回復。

所述智能語音機器人1還包括第一SIP客戶端2,所述網頁界面6還包括第二SIP

客戶端8,所述第一SIP客戶端2通過會話發起協議、實時傳輸協議向第二SIP客戶端8播放話術內容,所述網頁即時通信模塊7通過會話發起協議、實時傳輸協議向智能語音機器人1傳輸用戶的實時音頻數據,通過智能語音機器人1內的第一SIP客戶端2和網頁界面6內的第二SIP客戶端8、網頁即時通信模塊7實現用戶、智能語音機器人1之間的全雙工實時語音通話,智能語音機器人1通過會話發起協議、實時傳輸協議由第一SIP客戶端2向第二SIP客戶端8發送回復的話術內容,用戶在網頁界面6通過會話發起協議、實時傳輸協議由網頁即時通信模塊7向智能語音機器人1傳輸用戶的實時音頻數據。

所述通過VAD算法判斷用戶是否發出聲音的步驟如下:

(1)所述語音活動檢測模塊5基于用戶發言的音頻數據計算最近1秒內復數個采樣

節點的聲音頻率;

(2)設置閾值,當采樣節點的聲音頻率達到閾值時,則將采樣節點計為一次有效

音頻;

(3)連續n個的采樣節點均為有效音頻時,計為一次有聲片段;

(4)一段時間內的有聲片段超過m個時,則判斷當前用戶處于發言狀態。

以每1秒作為一個基礎計算單位,根據實際需求調整每1秒的采樣節點數量,對不同年齡、不同性別的用戶設置不同的閾值,采樣節點的聲音頻率達到閾值時計為一次有效音頻數據,當連續的n個采樣節點均為有效音頻數據時計為一次有聲片段,一段時間內的有聲片段超過m個時,判斷用戶處于發言狀態,同理,當一段時間內的有聲片段低于m個時,判斷用戶處于未發言狀態。在本實施例中,閾值、采樣節點數量n以及有聲片段數量m根據使用地點、對象人群的不同可以設置不同的參數。

以上所述的實施例只是本發明的一種較佳的方案,并非對本發明作任何形式上的限制,在不超出權利要求所記載的技術方案的前提下還有其它的變體及改型。

再多了解一些
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1