淺談多平臺音視頻同屏開發(fā)技術
來源:四川湖山電器股份有限公司 編輯:ZZZ 2024-09-24 10:13:03 加入收藏
淺談多平臺音視頻同屏開發(fā)技術
四川湖山電器股份有限公司 陳柯宇
引言
音視頻同屏處理作為一項核心基礎的關鍵技術被廣泛應用于無紙化會議、課堂教學系統(tǒng)等多媒體融合應用場景中。音視頻同屏技術本身也集中了音視頻采集、編解碼和網(wǎng)絡傳輸?shù)榷囝I域的技術,內(nèi)容豐富多樣。隨著應用范圍的不斷增加,特別是國產(chǎn)化主機和操作系統(tǒng)平臺的應用普及不斷推進,音視頻同屏處理技術需要適配應用于各種異構平臺上,這一訴求更加豐富了音視頻同屏技術的涵蓋范圍。
本文結合本公司產(chǎn)品實踐,結合較為當前企業(yè)級應用較為主流Windows和Linux操作系統(tǒng)平臺,提出了適用于指定平臺的端到端音視頻同屏技術方案。
系統(tǒng)架構設計
系統(tǒng)架構由以下幾個主要節(jié)點組成:
1. 同屏推送端
采集本地設備的音視頻數(shù)據(jù),對音視頻數(shù)據(jù)進行編碼壓縮,將編碼壓縮后的音視頻數(shù)據(jù)流推送到流媒體服務器。
2. 流媒體服務器
對來自同屏推送端的音視頻數(shù)據(jù)流進行轉發(fā),目前已經(jīng)有一些成熟、開源的流媒體服務器軟件項目可用,例如:ZLMediaKit、RTMP Nginx等。
ZLMediaKit是應用廣泛的流媒體服務器,支持RTSP、RTMP、HTTP、HLS、MPEG-TS等多種協(xié)議,可以實現(xiàn)音視頻的推流、轉碼、錄制、播放等功能。具有高性能、低延遲、易擴展等特點,適用于直播、視頻會議、監(jiān)控等場景。ZLMediaKit可以運行在Linux、Windows等操作系統(tǒng)上,支持多種硬件平臺。
3. 播放端
從流媒體服務器拉取音視頻數(shù)據(jù)流,對音視頻數(shù)據(jù)進行解碼,將解碼后的音視頻數(shù)據(jù)播放渲染以呈現(xiàn)給最終用戶。
因為流媒體服務器已有較多現(xiàn)成軟件項目可用,所以本文主要說明同屏推送端和播放端的開發(fā)實現(xiàn)技術,對于流媒體服務器不再贅述。
實現(xiàn)流程
一、同屏推流端
同屏推流端完成的功能包括:
1. 屏幕截圖
屏幕截圖功能包括對鼠標、光標位置和形狀的捕獲。
(1)Linux系統(tǒng)的獲取屏幕圖片方法:
A. framebuffer方式
訪問由顯卡顯存映射(mmap)的內(nèi)存幀緩沖區(qū),使用特殊的設備節(jié)點:/dev/fb*。framebuffer是一種比較老的渲染方式,因為只能實現(xiàn)簡單的整張位圖輸入輸出,需要耗費較多的CPU處理,目前僅仍然在一些輸出簡單顯示界面或者對顯示性能要求不高的嵌入式設備上使用?,F(xiàn)代Linux系統(tǒng)在X Window System加載后便將其接管,相應地,這種獲取屏幕圖片方式也就失效。
B. OpenGL方式
一種跨平臺的圖形編程接口,在Linux系統(tǒng)中最終仍然是通過X Window System的協(xié)議庫Xlib實現(xiàn)各種圖形操作。
C. XCB方式
X Window System由MIT在1984年發(fā)布的一種窗口系統(tǒng),廣泛使用于類UNIX操作系統(tǒng)上。X包括X server和X client,它們之間通過X協(xié)議通信。X server接收X client的顯示請求,調(diào)用底層的顯示設備驅(qū)動程序,輸出到顯示設備上;同時,把輸入設備的輸入事件,傳遞給相應的X client。X協(xié)議是網(wǎng)絡透明的,server和client可以位于同一機器上、同一操作系統(tǒng)中,也可以位于不同機器、不同操作系統(tǒng)中(因此X是跨平臺的)。這為遠端GUI登錄提供了便利。X client的實現(xiàn)上將X協(xié)議封裝為命令原語,以庫的形式(xlib或者xcb)向外部應用提供接口。外部應用作為X client調(diào)用這些API,向X server發(fā)起請求。X server的實現(xiàn)幾經(jīng)演變?yōu)楝F(xiàn)在的Xorg。目前的主流版本是X11R6(R7)。
這也是目前在Linux系統(tǒng)常用的獲取屏幕截圖方式。
(2) Windows系統(tǒng)的獲取屏幕圖片方法:
A. GDI方式
在Windows10以前的版本使用GDI (Graphics Device Interface)接口從系統(tǒng)中獲取屏幕截圖,但這種方式性能比較差,獲取操作的耗時經(jīng)常超過40ms,無法保證25幀的截圖速率,也就無法保證同屏視頻的流暢性,視覺效果不是太好。
B. DXGI方式
DXGI (Microsoft DirectX Graphics Infrastructure ) 是隨 Windows Vista 引入的新子系統(tǒng),從Windows10開始可以通過DXGI接口從系統(tǒng)中獲取屏幕截圖,耗時大幅縮短,能夠保證25幀的截圖速率,大幅提升了同屏視頻的視覺效果。
2. 聲音采集
聲音采集功能用于獲取本機上其他應用產(chǎn)生的聲音。
(1)Linux系統(tǒng)的采集聲音方法:
A. OSS聲卡系統(tǒng)
OSS(Open Sound System)是一個類Unix和POSIX兼容系統(tǒng)上一個可選的聲音架構,提供了源代碼級的可移植性。OSSv3是Linux下原始的聲音系統(tǒng)并集成在內(nèi)核里,但是OSSv4在2002年OSS成為商業(yè)軟件時它的地位被ALSA所取代。OSSv4在2007年又成為開源軟件,4Front Technologies以GPL協(xié)議發(fā)布了它的源碼。OSS的設備節(jié)點在/dev目錄下,類型為字符設備,其主設備號為14:/dev/dsp: Digital audio。
B. ALS聲卡系統(tǒng)
ALSA提供了Playback和Capture兩種方式對聲卡進行操作,應用程序通過asound庫調(diào)用ALSA對聲卡進行操作,但在默認情況下Capture方式只能對聲卡的輸入通道進行采集,不能進行內(nèi)錄。
通過配置ALSA環(huán)回(Loopback虛擬聲卡)路由,將真實的物理聲卡和Loopback輸入通道合并為一個邏輯聲卡設備,實現(xiàn)對Loopback輸出通道進行采集。
(2)Windows系統(tǒng)的采集聲音方法:
使用MMDevice API來枚舉和獲取指定設備,用WASAPI來處理應用程序和音頻設備之間的音頻流數(shù)據(jù)。
3. 音視頻編碼
音視頻編碼功能將屏幕截圖的bmp數(shù)據(jù)編碼壓縮成H264/H265數(shù)據(jù),將聲音采集的pcm數(shù)據(jù)編碼壓縮成G711/aac/mp3等格式數(shù)據(jù)。
使用最為廣泛的音視頻編解碼開源軟件項目是ffmpeg, 這是一套可以功能強大、可運行于很多軟硬件平臺的音視頻處理軟件,支持幾乎市面上絕大多數(shù)音視頻編解碼、采集、轉碼、記錄、推拉流等處理,支持Intel QSV、Linux VAAPI、Android MediaCode等硬件編解碼處理增強。同時,ffmpeg也可由開發(fā)者自行開發(fā)代碼對接新的編解碼協(xié)議、實現(xiàn)和硬件編解碼增強。
4. 音視頻傳輸
音視頻傳輸功能將編碼壓縮后的音視頻碼流數(shù)據(jù)通過網(wǎng)絡傳輸協(xié)議推送給流媒體服務器,常用的網(wǎng)絡傳輸協(xié)議包括:RTMP、RTP、RTSP、HLS等。
A. RTP/RTCP
RTP/RTCP(Real-time Transport Protocol, RTP Control Protocol)用于在網(wǎng)絡中傳輸音視頻數(shù)據(jù)的IETF RFC標準協(xié)議,可工作在TCP或UDP上,可單播也可組播,通常和RTCP一起使用。
B. RTSP
RTSP(Real Time Streaming Protocol)是哥倫比亞大學、Netscape和RealNetworks公司提交的IETF RFC標準。RTSP在體系結構上位于RTP/RTCP之上,語法和HTTP 1.1類似,默認使用端口號554或8554。RTSP控制消息協(xié)商完成后可使用RTP/RTCP傳輸流媒體數(shù)據(jù)。
常用的RTSP客戶端和流媒體轉發(fā)服務器有:live555、ZLMediaKit。
C. RTMP
RTMP(Real Time MessagingProtocol)是Adobe公司為Flash播放器和服務器之間音視頻數(shù)據(jù)傳輸開發(fā)的開放協(xié)議。工作在TCP之上,默認使用端口號1935,并衍生出:RTMPE、RTMPT、RTMPS??蓪崿F(xiàn)主動推送,常用的RTMP流媒體轉發(fā)服務器有:Nginx(rtmp-module)、SRS、ZLMediaKit。
D. HLS
HLS(HTTP Live Streaming)是蘋果公司基于 HTTP 的流媒體傳輸協(xié)議,主要應用于 iOS 設備提供音視頻直播和點播服務。
結合前述的介紹,同屏推流端在Linux操作系統(tǒng)的軟件架構如下圖所示:
同屏推流端在Windows操作系統(tǒng)的軟件架構如下圖所示:
上圖中左右邊分別表示視頻和音頻數(shù)據(jù)在同屏推流端中的數(shù)據(jù)流。
二、 播放端
播放端的實現(xiàn)方案相對比較簡單,完成的功能包括:
1. 音視頻傳輸
音視頻傳輸功能通過網(wǎng)絡傳輸協(xié)議從流媒體服務器拉取編碼壓縮的音視頻碼流數(shù)據(jù),常用的網(wǎng)絡傳輸協(xié)議包括:RTMP、RTP、RTSP、HLS等,和同屏推流端使用的協(xié)議一致。
2. 音視頻解碼
音視頻解碼功能將編碼壓縮的H264/H265、G711/aac/mp3碼流數(shù)據(jù)解碼還原成YUV或BMP數(shù)據(jù)。常用的軟件開源項目除了前述的ffmpeg,還有l(wèi)ibyuv等。
3. 音視頻渲染
音視頻渲染功能渲染呈現(xiàn)解碼后的視頻圖像,播放解碼后的音頻。
(1) 常用的視頻圖像渲染方式:
A. OpenGL
OpenGL是一種跨平臺的圖形編程接口,能夠充分利用GPU的強大處理能力,實現(xiàn)圖像和圖形的各種渲染顯示。相比較簡單地由軟件繪圖方式呈現(xiàn)每一幀解碼后的BMP或YUV數(shù)據(jù),使用OpenGL能降低CPU占用率,提升整體性能和呈現(xiàn)效果。
B. SDL
SDL(Simple DirectMedia Layer)是一套開放源代碼的跨平臺多媒體開發(fā)庫,提供了跨平臺的圖像、聲音控制功能,SDL的底層也能通過OpenGL實現(xiàn)圖像渲染顯示的功能。
(2) 常用的音頻播放方式:
A. SDL
B. 直接調(diào)用系統(tǒng)原生的聲音播放API
因為這種方式需要分別調(diào)用不同操作系統(tǒng)的聲卡處理API,且需要配置很多參數(shù),所以不推薦使用這種方式。
總結
本文完整地闡述和說明了Windows和Linux平臺下的音視頻同屏技術解決方案,尤其是針對不同平臺的幾種常見主流處理技術進行了討論和比較。音視頻技術的發(fā)展非常迅速,新的編解碼技術標準、傳輸協(xié)議和操作系統(tǒng)底層軟件驅(qū)動框架也在不斷發(fā)展演變,我們也會持續(xù)跟進。
評論comment