谷歌發力AI搜索,視覺檢索+識別會成主流?AR眼鏡也要東山再起?
04谷歌AI語音助手Google Assistant
手機帶AI語音助手,已經成了行業慣例。
國內比較成熟的就是百度語音助手小度,能幫助用戶處理一些簡單的操作指令。
谷歌的AI語音助手則是Google Assistant,谷歌稱,在AI對話能力技術領域,全球每天有7億人都在使用Google Assistant。
在開發者大會上,谷歌發布了“Look and Talk”功能,用戶不再必須通過“Hi Google”喚醒設備。用戶可以通過注視并直接講話與語音助手進行交流。

你只需要看著設備屏幕上的前置攝像頭,并說出需求,語音助手就會進行應答。
另外,用戶可以直接通過一些快捷短語控制語音助手,進行一些事項的處理,比如上個鬧鐘、關個燈。
谷歌的核心目的,就是讓用戶可以與語音助手交互的更自然。
值得一提的是,在開放式對話處理方面,谷歌進一步優化了神經網絡模型,語音助手甚至可以對非連續的對話進行理解。
比如用戶說話的時候即使磕巴、語句斷斷續續,語音助手還是可以聽懂用戶的意思。


▲AI會去掉語句中的“停頓”和“卡殼”
去年谷歌發布了生成語言模型LaMDA,谷歌今年將其迭代為LaMDA 2,并向一些谷歌員工開放測試。
LaMDA甚至學會了“想象”,比如當用戶說,“想象世界上最深的海是什么樣子”,LaMDA會找到馬里亞納海溝。
此外,用戶還可以與LaMDA圍繞某一話題展開討論,LaMDA會一直圍繞這一話題進行回答。
比如討論關于“狗”的話題,LaMDA的回答都會圍繞狗來展開。
谷歌在發布會上也提到了近期發布的PaLM大模型,該模型包含5400億參數,它可以解答數學問題,甚至可以解釋一個笑話。
PaLM可以用沒有訓練過的語言回答用戶提出的問題,打破語言的邊界。
谷歌在大會上宣布,他們將為谷歌云客戶提供全球最大的開放機器學習中心,該數據中擁有9 exaFLOPS的算力。
另外,Android 13今年發布。
05谷歌手機
大家比較的關心也是這個。
首先是谷歌Pixel 6a,它是旗艦Pixel 6的“青春版”,依舊是谷歌自研芯片Tensor ,也依舊支持5G,還有Android 13系統。
外觀設計類似,但看起來沒那么高端(應該是塑料材質),背后是1200萬像素的雙鏡頭系統,價格更低了只要449美元起,走的是平民廉價路線。
有一說一,谷歌這思路是挺政治正確的,在中高端市場,蘋果在美國的統治力過大,死磕沒必要,不如學當年的小米,繼續走低價傾銷策略,專注低端市場擴銷量是真。
這手機7月21日預售,7月28日上市。
這款手機跟之前所有Pixel手機一樣,是Android系統和剛才講那一大票AI技術+算法的硬件體現;或者說是谷歌技術的硬件軀殼。
06新款AR眼鏡
在開發者大會末尾,公司透露,它正在開發一副新的增強現實智能眼鏡,旨在“打破溝通障礙”。
外形和普通眼鏡類似,減少了佩戴者的突兀感。
功能方面,谷歌AR眼鏡可以直接看到翻譯在眼前的語言,非常酷。相當于直接給你加字幕解讀外文影視劇!
但谷歌沒有透露該設備的具體名稱,也沒有說什么時候會向消費者發布。
谷歌AR眼鏡天天在講故事,講了好多年,就是沒看見好的應用產品,大家等的黃花菜都涼了。
這行業競爭也激烈,Meta、蘋果、三星、微軟等科技巨頭都陸續透露正在研究或者即將推出AR眼鏡產品。
不過,據媒體報道,谷歌之前收購了Raxium,這是一家專注于開發針對AR/VR/MR設備應用的單片集成式RGB Micro LED微顯示器公司,很明顯,谷歌收購這家公司也是為了提高AR設備的適用性,看來,這次人家有備而來。
知情郎專門查了下公司專利,在德高行全球專利數據庫中,關于google的AR眼鏡專利,中國專利43件,包括發明公開21件、發明授權7件、外觀設計15件。美國專利124件,包括發明公開60件、發明授權57件、外觀設計7件。
看了眼谷歌4月底公布的最新智能眼鏡專利,這專利除了賦予眼鏡用戶傳統的所示視圖外,還增加了將信息(例如,數字圖像)疊加至視場并基于例如光學頭戴式顯示屏(OHMD)、兼具透明頭戴式顯示屏(HUD)嵌入式無線眼鏡進行AR視圖覆蓋,總而言之,現代智能眼鏡實際上可以是運行獨立移動應用程序的可穿戴電腦,并能支持用戶通過免提、自然語言語音命令以及觸屏功能按鈕與互聯網通信。
外媒的原話是:谷歌正在開發的智能眼鏡兼具了AR功能,可呈現融合了真實和虛擬圖像的增強現實視圖,與谷歌之前推出的智能眼鏡相比,顯然這款眼鏡具有更好的性能,其配置的高質量攝像頭模塊和3D傳感模塊將在虛擬圖像與現實世界的融合中發揮著關鍵作用。
至于現實效果,誰用誰知道!沒見過成品,啥都不說!

07視覺搜索查詢的智能系統
分享個谷歌AI搜索技術研發方面的最新專利,視頻檢索+識別是它最新發力點。

一般而言,本公開涉及一種計算機實現的視覺搜索系統,可以用于檢測 和識別視覺查詢中的對象或與視覺查詢相關的對象,然后提供響應視覺查詢 的更個性化和/或智能的搜索結果(例如,在增強視覺查詢的覆蓋中)。
例如, 用戶可以提交包括一個或多個圖像的視覺查詢。在視覺查詢中或與視覺查詢 相關,各種處理技術(諸如光學字符識別(OCR)技術)可以用于識別文本 (例如,在圖像、周圍圖像中等)和/或各種對象檢測技術(例如,機器學習 對象檢測模型等)可以用于檢測對象(例如,產品、地標、動物、人類等)。
可以識別與檢測的文本或對象(或多個)相關的內容,并可以將其作為搜索 結果提供給用戶。因此,本公開的方面使得視覺搜索系統能夠更智能地處理視覺查詢以提供改進的搜索結果,包括更個性化和/或考慮情境信號的搜索結 果來解釋視覺查詢和/或用戶搜索意圖的隱式特征。
本公開的示例方面響應于視覺查詢提供了更智能的搜索結果。
視覺查詢 可以包括一個或多個圖像。例如,在視覺查詢中包括的圖像可以是同時捕獲 的圖像,也可以是先前存在的圖像。
在一個示例中,視覺查詢可以包括單個圖像。在另一示例中,視覺查詢可以包括來自大約三秒視頻捕獲的十個圖像 幀。
在又一示例中,視覺查詢可以包括圖像的圖像庫,例如,包括在用戶的 照片庫中的所有圖像。
例如,諸如庫可以包括用戶最近捕獲的動物園動物的 圖像、用戶不久前捕獲的貓的圖像(例如,兩個月前)以及用戶從現有來源 (例如,從網站或屏幕捕獲)保存到庫中的老虎的圖像。這些圖像可以代表 用戶的一組高親和力圖像,并體現(例如,通過圖形)用戶可能對類似動物 的事物具有“視覺興趣”的抽象想法。
任何給定的用戶都可能有許多這樣的節點集群,每個節點集群代表的是無法很好地被詞捕獲的興趣。
根據一個示例方面,視覺搜索系統可以構建并利用用戶中心視覺興趣圖 來提供更個性化的搜索結果。在一個示例使用中,視覺搜索系統可以使用用 戶興趣圖來過濾視覺發現通報、通知或其他機會。
因此,在示例性實施例中, 在搜索結果在查詢圖像的增強覆蓋中呈現為視覺結果通知(例如,在某些情 況下可稱為“閃光(gleams)”)的示例性實施例中,基于用戶興趣的搜索結 果的個性化可能特別有利。
更具體地,在一些實現中,視覺搜索系統可以包括或提供增強覆蓋用戶 界面,用于為搜索結果提供視覺結果通知,作為視覺查詢中包括的圖像的覆 蓋。
例如,視覺結果通知可以在和與搜索結果相關的圖像部分相對應的位置 提供(例如,視覺結果通知可以顯示在與對應搜索結果相關的對象的“頂部”)。因此,響應于視覺搜索查詢,可以識別多個候選搜索結果,并且多個候選視 覺結果通知可以分別與多個候選搜索結果相關聯。然而,在底層視覺搜索系 統功能強大且范圍廣泛的情況下,大量候選視覺結果通知可能可用,使得所有候選視覺結果通知的呈現將導致用戶界面混亂地擁擠或以其他方式不希望 地模糊基礎圖像。
因此,根據本公開的一個方面,計算機視覺搜索系統可以 構建并利用用戶中心視覺興趣圖來基于觀察的用戶視覺興趣對候選視覺結果 通知進行排名、選擇和/或過濾,從而提供更直觀和簡化的用戶體驗。
在一些實現中,用戶特定興趣數據(例如,可以使用圖表示)可以至少 部分地通過分析用戶過去參與的圖像隨時間聚合。
換言之,計算系統可以通過分析用戶隨時間參與的圖像來嘗試理解用戶的視覺興趣。當用戶參與圖像 時,可以推斷圖像的某些方面是用戶感興趣的。因此,可以在用戶特定興趣 數據(例如,圖)中添加或以其他方式標注包括在此類圖像中或與此類圖像 相關的項(例如,對象、實體、概念、產品等)。
【轉載請注明 德高行·知情郎】
原文標題 : 谷歌發力AI搜索,視頻檢索+識別會成主流?AR眼鏡也要東山再起?
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月7日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯網行業年度評選
-
11月20日立即報名>> 【免費下載】RISC-V芯片發展現狀與測試挑戰-白皮書
-
即日-11.25立即下載>>> 費斯托白皮書《柔性:汽車生產未來的關鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術在線大會
-
11月28日立即下載>> 【白皮書】精準洞察 無線掌控——283FC智能自檢萬用表
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯網產業大會


分享













