因為有一個CLOUD VIDEO INTELLIGENCE API演練,我馬上試用了

目錄

  • 視頻機器學習API“雲視頻智能API”發布!
  • 讓我們一次嘗試Cloud Video API演示
    • 指定並執行視頻文件
    • 識別結果:確認標籤
    • 識別結果:射擊
    • 識別結果:API
  • 嘗試使用Cloud Video Intelligence API的摘要

視頻機器學習API“Cloud Video Intelligence API”發布!

最後,Google宣布推出用於視頻的機器學習API“Cloud Video Intelligence API”。
此API輸入電影文件並識別電影中的場景中斷,每個時區的場景以及此處顯示的對象。這一點使用了Google使用大量Youtube數據學習的機器學習模型。由於數據是機器學習的生命,因此使用具有此優勢的模型具有很大的優勢。
它還沒有正式發布,它是私有Beta版,所以如果你想在自己的GCP環境中試用它,你需要從以下頁面申請。

https://cloud.google.com/video-intelligence/

我想在官方頁面上試一下這個演示。

讓我們一次嘗試Cloud Video API演練

該演示在官方頁面上,因此請訪問以下URL。
https://cloud.google.com/video-intelligence/#demo

指定並執行視頻文件

在GCS上指定視頻文件的路徑,然後單擊“ANNOTATE VIDEO”按鈕開始識別視頻文件。
順便說一下,這次我作為樣本準備的視頻文件的內容是冬天的風景的彙編。因此,作為預測,我認為將與雪和冬天聯繫起來的詞語將得到認可。
現在,讓我們點擊“ANNOTATE VIDEO”按鈕並檢查識別結果。

識別結果:確認Labels

識別結果:在“標籤”選項卡中,“視頻標籤”似乎顯示6個在整個視頻文件中查看時經常被識別的項目。
“冬天和雪”這兩個詞在頂部被識別出來,所以結果似乎與預期一致。

此外,視頻文件的大小為46.51 MB,長度為2分52秒,但視頻識別結果顯示在“視頻標籤”中大約需要33秒。在這種情況下,與實際比例相比,它似乎以四分之一速度進行處理。它比視頻編碼過程快得多。

識別結果:Shots

識別結果:在Shots中,“Shot Changes”顯示場景編號,搜索欄顯示場景切換部分。
另外,“Shot Lables”顯示當前場景的對象識別結果。

識別結果:API

識別結果:API可以檢查請求正文並響應“Cloud Video Intelligence API”。

請求正文是

{
"inputUri": "gs://xxxxxxxxx/xxxxxxxx.mp4",

"features": [

"LABEL_DETECTION",

"SHOT_CHANGE_DETECTION"

]
}

它已成為。
在“inputUri”中,指定了GCS上視頻文件的路徑。
似乎“特徵”被設置為被識別,“LABEL_DETECTION”用於對象識別,“SHOT_CHANGE_DETECTION”用於識別場景變化。
目前還沒有官方文件,所以這只是一個預測。

接下來是響應,但是只有2分52秒的視頻文件,API返回了大量超過2000行。
它實際上太長了,所以讓我們來看幾個重要的地方。

首先,它似乎是物體識別的結果。

"labelAnnotations": [ 
{
"description": "Aerial photography",
"languageCode": "en-us",
"locations": [
{
"segment":
{
"startTimeOffset": "47639975",
"endTimeOffset": "51840016"
},
"confidence": 0.7867751,
"level": "SHOT_LEVEL" },
{
"segment":
{
"startTimeOffset": "68240042",
"endTimeOffset": "75919978"
},
"confidence": 0.88369185,
"level": "SHOT_LEVEL"
}
]
}]

它是對象識別結果的屬性列表。

物業名稱財產的含義
labelAnnotations []對象識別結果列表。
labelAnnotations [].description物體識別結果。
labelAnnotations [].languageCodede它看起來像語言代碼,但我不知道語言代碼是什麼。讓我們期待文檔出來。
labelAnnotations [].locations[]它看起來像是對象識別結果的顯示場景列表。
labelAnnotations [].locations[].segment它具有關於視頻中對象識別結果的顯示開始時間和結束時間的信息。
labelAnnotations [].locations[] .segment.startTimeOffset它是視頻中對象識別結果顯示的開始時間。
labelAnnotations [].locations[] .segment.endTimeOffset在視頻中顯示對象識別結果的結束時間。
labelAnnotations [].locations[].confidence它似乎是物體識別結果的準確性。
labelAnnotations [].locations[].level我認為它是一個細分市場,但由於沒有文件,我不知道該代表什麼水平。

※由於沒有文件,有任何錯誤歡迎請指出。

接下來,讓我們看一下場景識別的結果。
 代碼

"shotAnnotations": [ 
{
"startTimeOffset": "1600040",
"endTimeOffset": "13999966"
},
]

“shotAnnotations”中有“startTimeOffset”和“endTimeOffset”,它們似乎表示每個場景的開始和結束。

嘗試使用Cloud Video Intelligence API的摘要

我嘗試使用“雲視頻智能API”,但我認為它比我認為的更像是Vision API。
通過此準確性,您可以自動對視頻進行分類和標記。
既然私人測試版沒有文件,我想在收到申請批准後嘗試各種各樣的事情。

通過添加“雲視頻智能API”,提供使用Google自己存儲的大量數據進行培訓的學習模型的API包括圖像識別(Vision API),語音識別(Speech API) ,翻譯(翻譯API),自然語言(自然語言API)和視頻識別(視頻API)。
畢竟,在機器學習領域,數據量變成了生命,因此Google將來會越來越領先。

在apps-gcp中,我們為初學者發布了以下機會學習文章。請仔細閱讀!

機器學習前線!我嘗試過雲機器學習!

Aaron Lee

超過6年的Google Cloud經驗,服務過上百家G Suite與GCP客戶,擔任多次研討會主講人與教育訓練講師,提供架構諮詢與技術支援,幫助各大企業上雲。

Leave a Reply