提交任務時勾選保留人臉畫框

例如下圖,清洗前的數(shù)據(jù)集除了人臉圖片,還有一些風景照、車輛等其他物體的照片,人臉過濾會把這些沒有人臉的圖片過濾,保留下來包含人臉的圖片,包括戴口罩、被遮擋的人臉也可以識別出來。

清洗前的數(shù)據(jù)集中有人臉照片、風景照、靜物照

清洗后的數(shù)據(jù)集只有人臉照片被保存下來

戴口罩的人臉圖片

  2、過濾無人體圖片

過濾無人體圖片同樣會用到百度智能云的人體檢測能力,在使用之前需要在百度智能云上開通相應的服務。過濾無人體圖片會用到兩個接口,人體檢測和屬性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。數(shù)據(jù)集模板為圖像分類和物體檢測的數(shù)據(jù)集會調用人體檢測和屬性分析接口,數(shù)據(jù)集模板為圖像分割的數(shù)據(jù)集會調用人像分割接口。百度智能云上的人像分割接口返回的是人像圖片對應的二值圖片(人像為1,背景為0),在后端會執(zhí)行相應的標簽轉換,返回的二值圖片轉換成對應的標簽。

清洗前的數(shù)據(jù)集中有風景圖、靜物圖和人體圖

數(shù)據(jù)清洗過濾保留的5張人體圖片

模板為圖像檢測的數(shù)據(jù)集清洗后的標簽

模板為圖像分割的數(shù)據(jù)集清洗后的標簽

  關注廣泛需求,提供多種基礎數(shù)據(jù)清洗功能

  1、去相似圖片

  用攝像頭自動采集圖片的時候,由于長時間在同一個場景下,即使做了抽幀處理,還是會有大量的相似圖片。大量的相似圖片,數(shù)據(jù)價值低,而且占用了大量的存儲空間,而人工篩選,耗時費力,容易出錯。EasyData平臺推出的去相似圖片利用圖片的相似檢索特征,計算圖片的兩兩相關性,可以自動地判斷相似圖片、保留不相似的圖片,具體操作也十分簡便。

  如下圖所示,去相似前的數(shù)據(jù)集里有8張圖片,根據(jù)圖片的相似度,圖片可以分成3類。清洗完成后的數(shù)據(jù)集中有3張圖片,分別是清洗前的3類圖片中的一張。

去相似前的8張圖片

去相似后保留下來3張圖片

拖拽圓點可以修改相似度分值

  2、去模糊圖片

  相機抖動、物體快速移動都會造成拍出來的圖片不清晰、產(chǎn)生低質圖片。通過人工挑選的方法去除模糊圖片缺乏統(tǒng)一的標準,容易漏刪或多刪。利用EasyData的去模糊圖片,可以輕易地去除模糊圖片。

  以示例圖片為例,清洗前有5張圖片,畫質不一,清洗后保留下來兩張高質量的圖片。此外,如果用戶認為有部分模糊圖片沒有去除,或者高質量的圖片沒有保留下來,可以考慮調整清晰度的分值,重新清洗。

去模糊前的5張畫質不一的圖片

去模糊后保留下來清晰圖片

拖拽圓點可以修改清晰度分值

  對于普通清洗,可以在一個清洗任務中提交多個清洗操作,例如同時勾選去相似、去模糊功能,即可同時去除相似和模糊的圖片。

  目前的數(shù)據(jù)清洗服務所能支持的最大數(shù)據(jù)集大小是5萬張圖片?;贓asyData平臺的大數(shù)據(jù)處理平臺,對于基礎清洗服務,2萬張圖片的數(shù)據(jù)集,僅需1小時可以完成清洗;5萬張圖片的數(shù)據(jù)集,只需2小時即可完成清洗。對于高級清洗服務來說,清洗效率也可以通過配置QPS靈活調整清洗效率,更方便快捷。

  考慮到智能園區(qū)管理等場景中,有對視頻進行截幀、自動上傳的需求,EasyData平臺也免費提供SDK,供用戶進行下載,可以將SDK接入業(yè)務現(xiàn)場的數(shù)據(jù)采集終端,在平臺設置截幀時間與間隔,自動將原始視頻數(shù)據(jù)截為圖片數(shù)據(jù)并上傳至EasyData平臺進行后續(xù)處理。

  EasyData是百度大腦推出的業(yè)內首個提供軟硬一體、端云協(xié)同的智能數(shù)據(jù)采集與處理平臺,支持圖片、文本、音頻和視頻四類數(shù)據(jù)的處理,其中圖片數(shù)據(jù)支持了采集、清洗、標注一站式處理,覆蓋模型開發(fā)中的各類數(shù)據(jù)管理需求。EasyData處理后的數(shù)據(jù)可直接應用于EasyDL模型訓練,通過EasyDL預訓練模型和自動遷移學習機制,高效開發(fā)AI模型。

  立即體驗EasyData:https://ai.baidu.com/easydata/

分享到

zhangnn

相關推薦