向量數據庫如何解決大模型幻覺問題?
瀏覽量: 次 發布日期:2023-08-17 21:49:07
向量數據庫如何解決大模型幻覺問題?
數據存儲技術在適應大數據時代的規模需求基礎之上,持續優化可用性、可靠性、存算分離、事務性等能力。為適應AI的迅速發展,對非結構化數據、圖數據等原始數據形式的存儲支持以提高數據表達能力,或者對AI算法架構中間產物向量表示的存儲支持以提高處理效率,都是不可小視的發展趨勢,特別是后者已經在大模型推動下成為行業熱門,即向量數據庫。為促進大數據存儲架構的行業交流與技術發展,在DataFunSummit2023數據基礎架構峰會中,將帶來分布式存儲以及向量數據庫的架構原理、性能優化與實踐解析分享。通過本次峰會的學習,讓你在存儲技術段位上更上一層樓,并在入場向量數據庫之前,讓你胸有成竹。掃描二維碼即可免費報名
下面為您帶來本次峰會的詳細介紹: 峰會介紹
下面為您帶來本次峰會的詳細介紹:
專家評審團
蔣鴻翔 網易數字產業事業部 技術經理
個人介紹:網易數據庫內核和數據基礎設施負責人,全面負責數據庫內核技術和大數據平臺底層技術開發工作,先后主導了內部MySQL分支InnoSQL、HBase、自研時序數據庫、實時數據倉庫、離線計算等各種不同的平臺,具有豐富的數據庫內核和大數據平臺相關經驗;擅長數據庫內核技術診斷、復雜環境數據恢復,大數據平臺各種性能優化技術等等。
楊華 T3出行 大數據平臺研發負責人
個人介紹:楊華 (Vino Yang) , Apache Hudi / Kyuubi PMC member & Apache Kylin Committer. Apache Flink 貢獻與布道者。T3 出行大數據平臺研發負責人。加入T3之前曾在騰訊主導Flink從0到1落地并支撐日均數十萬億的消息處理規模。楊詩旻 字節跳動 數據湖團隊技術負責人個人介紹:于 19 年加入字節跳動,目前是數據湖團隊技術負責人。團隊負責基于 Hudi 的 EB 級數據湖解決方案,在字節內部的實時數倉、離線數倉和推薦系統等多個場景落地,還負責火山引擎產品LakeHouse Analytics Service 的相關技術。目前聚焦于湖倉一體和批流一體的架構演進,在大數據計算、存儲、數倉優化等領域有豐富的經驗。
部分峰會論壇
分布式存儲論壇
數據是業務的基石,如何高效便捷的管理和存儲好數據,是各家互聯網公司面臨的挑戰?;ヂ摼W公司內部的存儲系統基本由對象存儲系統,NoSQL存儲系統和分布式塊存儲系統構成。其中NoSQL系統,各家以自研為主,貼近各自的業務需求。而對象存儲系統和分布式塊存儲系統,則是少數大廠的獨門秘訣。本論壇,以干貨為主調,邀請了相關領域的負責人來給大家分享這些系統的設計思路、日常運維心得、領域思考等。通過論壇,聽眾即可以學習到前沿的對象存儲和塊存儲設計方案,也可以學習到各家的NoSQL系統的演進路線,更可以學習到為提升系統的SLA指標,大家所做的努力。
出品人:司春峰 bilibili 技術專家個人介紹:2009年畢業于南京大學。先后在EMC的統一存儲部門,百度基礎架構部和B站基礎架構部從事存儲系統的研發工作。創建了B站的對象存儲系統和KV存儲系統。目前負責B站的分布式存儲團隊。
林堂輝 bilibili 基礎架構部 資深研發工程師
個人介紹:2016年加入B站,作為核心開發親歷了B站從單體架構到微服務的架構改造,后續又負責消息隊列、服務發現、數據傳輸等微服務中間件的開發。目前負責NoSQL存儲,從零到一搭建了分布式KV存儲系統,為全站業務提供了高性能穩定可靠的存儲服務。
演講題目:如何打造一個高可靠的線上存儲系統
演講提綱:對于每天承載億級請求的在線存儲系統,如何通過多活來保證在線服務的可用性。同時對于機器故障數據損壞等,如何通過數據備份容災來保證數據的可靠性,對于數據損壞如何快速進行修復。最后,介紹一些常用的運維sop來對故障進行預防及快速響應。
聽眾收益:
1.如果打造多活存儲系統
2.如何通過point-in-time recovery來保證服務的可靠性。3.通過完善的日常sop來對風險進行預防及快速響應。
吳宏松 網易 基礎平臺 資深服務端開發工程師
個人介紹:吳宏松,Curve開源社區maintainer,2015年碩士畢業,并于2016年開始在網易從事云計算基礎設施相關工作,先后參與開發以及優化了網易第一代分布式塊存儲,Ceph以及Curve等。
演講題目:國產開源分布式存儲系統--Curve
演講提綱:
1. CurveBS介紹
簡要介紹CurveBS的架構設計,以及我們開始開發CurveBS項目的初心。
2. CurveBS結構設計特點
從CurveBS項目的一些特點展開介紹Curve,包括高性能,易運維,云原生,更穩定等,同時分享交流一些我們系統設計方面的一些取舍。
3. CurveBS應用案例以及開源現狀
簡要介紹下CurveBS的業務應用案列以及開源現狀。
4. Curve roadmap
簡要介紹下Curve近兩年的項目規劃以及社區規劃。
聽眾收益:
1. 了解CNCF 分布式存儲項目Curve的架構以及特點
2. 了解Curve的應用案例3. 了解Curve的RoadMap
郭波 百度云存儲高級研發架構師
個人介紹:碩士畢業于華中科技大學計算機專業,隨即加入百度基礎架構體系存儲方向,長期致力于分布式存儲/云存儲架構/云存儲產品的研發和推廣,具備超過十年的相關經驗。目前作為云存儲部門高級研發架構師負責Aries存儲系統的研發和演進,該系統作為云存儲數據面底座,支撐了百度智能云多個云存儲產品以及百度網盤的數據存儲需求和快速發展,同時也負責了部分NoSQL數據庫產品的演進。
演講題目:百度云磁帶庫存儲架構的設計與實踐
演講提綱:本演講介紹百度云存儲最新一代磁帶庫存儲架構與設計,包括設計細節與實踐案例。通過該演講,聽眾可以獲得一種成功落地的大規模應用磁帶庫的方案,并可以從中獲得一些百度云在磁帶庫存儲上的經驗與思考,以及分布式存儲在架構設計上的一些經驗與思考。演講內容大致分為以下4個部分:
1. 介紹企業級磁帶與磁帶庫的特性及合適的應用場景;
2. 百度云存儲數據面底座Aries系統的總體設計與概念;
3. Aries系統接入和應用磁帶庫的架構設計細節;
4. 一個實踐案例的解析。
聽眾收益:
1. 企業級磁帶和磁帶庫有哪些典型特性?有哪些適合的應用場景?
2. 百度云存儲數據面底座Aries是怎么樣設計的?3. Aries如何接入和應用磁帶庫?有什么實踐案例?
侯雪峰 金山云 研發專家
個人介紹:2017加入金山云,目前負責云存儲大數據方面的研發,曾就職于百度,對大數據架構有著深入的研究與學習,云原生時代對計算、存儲計算分離、流計算、消息隊列方面有著深入學習和成功案例。
演講題目:金山云大數據存算分離架構實踐
演講提綱:
1. 大數據存算分離介紹
2. 金山云存算分離方案
3. 托管存算分離方案 Gaea
4. Serverless 存算分離方案 KS3-HDFS
聽眾收益:
1. 通過大數據存算分離,降低大數據50%以上的存儲成本
2. 存算分離結合彈性計算,節省30%以上的計算資源
3. 存算分離方案如何選型沈泰寧 PingCAP 分布式存儲部門 高級軟件工程師
個人介紹:
● TiDB 項目 committer
● TiDB 備份恢復
● TiDB 數據同步
● TiKV 項目 committer
● grpc-rs 項目 maintainer
● rust-prometheus 項目 maintainer
演講題目:分布式事務型 KV 數據庫 TiKV 的實現和實踐
演講提綱:在這次分享中,我們將會探討 TiKV,一款支持事務的分布式 KV 數據庫。首先,我們會介紹包括它的功能特性和應用場景;然后,我們將會闡述 TiKV 的架構和實現,了解它的分層設計,各層的算法和實現;最后,我們將討論在過去幾年的技術發展中 TiKV 遇到的挑戰和解決方案。
聽眾收益:
1. 了解 TiKV 的使用場景和設計目標。
2. 了解分布式事務型 KV 數據庫的架構和實現。
3. 了解 TiKV 過去幾年實踐中遇到的問題和解決方案。
掃描二維碼免費報名
②大規模存儲論壇
隨著企業智能化、云計算、AI大數據等產業蓬勃發展,數據存儲規模也急劇擴張,呈現出指數級增長的趨勢,為了應對高速增長的數據增長,如何構建高可擴展、支撐超大規模的各類數據存儲系統顯得非常重要。本次論壇邀請來自百度、美團、螞蟻、小米存儲領域的資深專家分享如何構建超大規模的文件存儲系統、塊存儲系統、KV存儲系統、Nosql存儲系統,在超大規模的存儲系統中如何實現低成本和高性能的實踐心得以及對未來超大規模存儲系統發展趨勢的思考。
出品人:段立國 百度智能云 存儲架構師
個人介紹:2011年碩士畢業于東北大學,畢業后一直在百度工作,10年存儲開發經驗,百度對象存儲BOS技術負責人。馬井瑋 百度智能云架構師
個人介紹:馬井瑋博士,畢業于南開大學,期間發表CCF A、B類論文多篇。2016年加入百度智能云,主導了百度滄?!ご鎯Φ膲K存儲CDS兩大關鍵組件(Append引擎和EC引擎)的設計和實現落地,大幅降低PB級別塊存儲系統成本,實現性能的增長。
演講題目:大規模塊存儲EC系統構建
演講提綱:
數據容錯方式比較
大規模塊存儲EC的技術挑戰
百度滄海的實現方案和業務效果
聽眾收益:
大規模塊存儲系統EC引擎構建的難點以及百度智能云的技術解決方案齊澤斌 美團基礎技術部研究員
個人介紹:美團研究員,KV 存儲和文件存儲負責人,10 年以上分布式存儲研發運營經驗。2011 年天津大學畢業后加入百度,負責過分布式文件存儲 MFS 和分布式 KV 存儲 BDRP 研發及運營。2014 年加入美團,負責過分布式 KV 存儲 Cellar、分布式緩存 Squirrel、分布式文件存儲 EFS 等研發及運營,主要關注于分布式存儲技術領域。
演講題目:美團大規模 KV 存儲挑戰與架構實踐
演講提綱:KV 存儲作為美團重要的在線存儲服務,承載了在線服務每天萬億級的請求量,并且保持著 5 個 9 的可用性。為了更好的支撐業務發展,并優化性能、成本,我們研發出兩套不同定位的 KV 存儲系統。針對大數據量、高數據可靠性場景,研發了分布式 KV 存儲 Cellar;針對高吞吐、低延遲場景,研發了分布式緩存 Squirrel。隨著服務規模的快速增長,Cellar 和 Squirrel 各自又遇到了不同的可用性、擴展性挑戰,并作出了不同的架構迭代。在本次分享中,將介紹美團 KV 存儲 Cellar 和 Squirrel 在大規模場景下的可用性和擴展性挑戰、架構實踐經驗,以及 KV 存儲的技術發展趨勢。
聽眾收益:
1.了解大規模 KV 存儲的可用性、擴展性挑戰,以及架構上的應對方法
2.了解分布式緩存和持久化 KV 的應用場景和技術架構差異
3.了解 KV 存儲在當前技術趨勢下的發展方向何昱晨 小米高級軟件研發工程師
個人介紹:何昱晨,本科碩士均畢業于中國人民大學。2017年碩士畢業后加入小米,負責分布式KV存儲系統Pegasus功能開發、業務支持等工作。工作期間,獨立開發了Pegasus Bulk Load和Partition Split兩個大功能,向社區共提交超過200個patch,致力于不斷完善系統功能、持續提升系統健壯性。在2020年Pegasus加入Apache之后,受邀成為Apache Pegasus PPMC。目前是Pegasus在小米的項目負責人。
演講題目:Apache Pegasus的應用實現與未來規劃
演講提綱:介紹Apache Pegasus的整體架構,基本功能,典型用戶場景和未來后續規劃。
聽眾收益:
1. Apache Pegasus適用于哪些場景?
2. 如何參與到開源項目中?黃華 螞蟻集團圖計算技術專家
個人介紹:深耕存儲領域數十年,對底層存儲設備,存儲引擎,大規模數據庫存儲系統有深入理解。
演講題目:基于完美哈希的面向讀優化的存儲系統
演講提綱:
1. 基于完美哈希索引的批量更新存儲系統及其在螞蟻業務場景的應用;
2. 如何基于完美哈希構建高效率低成本的超大規模KV存儲系統;
聽眾收益:
1. 基于完美哈希索引,打造索引空間小,索引效率高的點查存儲系統;
2. 如何將基于靜態數據集的完美哈希索引機制打造成可實時讀寫的存儲系統;鄭鵬飛 百度智能云 高級架構師
個人介紹:博士畢業于中國科學院大學。目前是百度智能云文件存儲方向的負責人,在分布式存儲方向上有8年工作經驗,在塊存儲、私有化對象存儲、分布式緩存、文件存儲等多個存儲方向上都有研發和架構設計經驗。
演講題目:打造千億文件量級的大規模分布式文件系統
演講提綱:
1. 影響分布式文件系統擴展性的問題
2. 元數據系統的技術演進歷史
3. 百度智能云 CFS 元數據系統的核心設計
聽眾收益:
1. 分布式文件系統難以擴展的本質問題是什么?
2. 分布式文件系統的抽象概括是什么樣的?
3. 百度智能云是如何徹底解決元數據擴展性問題的?
掃描二維碼免費報名
③數據存儲應用實踐在日新月異的大數據服務不斷涌現的今天,我們可以看到作為數據基礎底座的存儲服務面臨了越來越多的復雜環境和需求的挑戰。無論是離線大數據存儲,還是在線KV類存儲,都服務了越來越多的數據應用場景。存儲業務形態的多樣化,催生了各種存儲體系的演化,如字節跳動的超大規模大數據存儲的應用實踐,給我們帶來了在數十EB的數據規模下,HDFS架構上演進的一些新技術特性,通過多機房架構、分級存儲以及有效的數據調度等,降低存儲成本、保障數據的使用效率和安全。數據存儲應用往往也和上層計算有較多的聯動,存算分離是一個比較前沿的演進方向,數據的量和業務的復雜性會對架構演進提出非常高的要求和挑戰,我們可以聽聽B站日志系統在降本增效的大背景下是如何解決這些問題的。圖存儲是一個非常有技術挑戰的存儲產品,在一些特定場景中它是不可或缺的,我們特地邀請了小紅書的相關技術負責人來為我們分享圖存儲實踐中如何應對萬億級社交關系帶來的挑戰。對于在線應用來說,數據服務的穩定性和可用性至關重要,穩定性不僅包括了服務本身的可用性,也包含了數據時延的穩定性。關于這個方向,我們不妨聽聽來自字節跳動的KV存儲在解決大規模多地域部署問題和挑戰的最佳實踐。
出品人:馮瑋 字節跳動 大數據存儲技術負責人
個人介紹:字節跳動大數據存儲技術負責人,在分布式存儲領域有 10+年技術與產品經驗。目前負責字節跳動大數據存儲產品的研發和運營工作。主要負責產品及方向包括 HDFS(自研),數據湖(存儲)和 火山大數據存儲加速產品等,涉及數十 EB 數據的管理和治理。毛琦 小紅書基礎架構存儲負責人
個人介紹:先后在emc、華為、阿里云從事存儲產品的核心開發和架構師角色,目前在小紅書負責nosql kv數據庫、圖數據庫、newsql數據庫的研發和架構演進演講題目:小紅書面對萬億社交網絡關系的圖存儲實踐
演講提綱:小紅書是一個社區屬性為主的產品,它涵蓋了各個領域的生活社區,并存儲海量的社交網絡關系。為解決社交場景下超大規模數據的更新與關聯讀取問題,并減少數據庫壓力和成本,我們自研了面向超大規模社交網絡的圖存儲系統 REDtao,大大提高了系統穩定性,它將緩存和底層數據庫封裝起來,并對外提供統一的圖查詢 API,實現了訪問收斂,同時在緩存中實現了高效的邊聚合。
聽眾收益:圖存儲系統在社交網絡關系的應用和收益。田勇 字節跳動HDFS產品技術負責人
個人介紹:字節跳動HDFS產品技術負責人,參與過文件、對象、NoSQL等多個分布式產品研發,在分布式存儲領域擁有10+技術經驗。之前在百度負責Mola/Table等NoSQL產品的研發。當前主要關注字節HDFS產品的技術架構演進、成本優化以及數十EB的數據治理等方向的工作。
演講題目:EB級存儲規模HDFS在字節的探索與實踐
演講提綱:HDFS是字節內部歷史最久遠、體量最大的存儲系統,存儲規模達到數十EB,運營時間超過10年。支撐了大數據、機器學習、Flink/AP/MQ等多種近離線場景。伴隨著字節系業務的發展歷程,產品和技術經歷了一系列的演進,形成了字節獨有的特色:包括采用單一大集群多機房部署形態,通過C++重構版的NameNode/DataNode解決社區版存在的性能和啟動效率等問題。構建分級存儲體系,結合上層生態的數據訪問范式管理數據在多級存儲、跨AZ間的流動,降低數據存儲成本,提升數據訪問效率。此外,還進一步結合機器學習來識別用戶的誤刪行為,提升數據安全保障等。本次分享主要圍繞著字節HDFS產品在以上工作中的探索和實踐展開:
1. 字節HDFS的新特性;
2. 多機房架構挑戰;
3. 分級存儲實踐;
4. 數據安全防護實踐
聽眾收益:
1. 字節c++重構版本的namenode/datanode引入哪些新feature?
2. 如何結合大數據生態實現海量數據精細化治理來保障業務穩定性,達到成本最優?
3. 多機房架構如何設計?如何解決跨機房訪問帶寬瓶頸?
4. 如何結合AI實現數據誤刪保護?徐明敏 bilibili 基礎架構微服務負責人
個人介紹:2011年畢業,先后在阿里、微軟、觸寶、字節跳動以及B站工作,主要從事分布式緩存/分布式存儲/服務治理/可觀測等相關工作。加入B站之后作為微服務方向Leader,主要負責服務治理/消息隊列/負載均衡/可觀測性等方向建設。個人對分布式系統,性能優化以及新硬件應用比較感興趣。
演講題目:B站日志平臺架構演進
演講提綱:主要內容為B站的日志平臺如何從1.0走到現在3.0的存算分離/離在線統一架構的。其中遇到了哪些困難,在架構上做了怎樣的抉擇和思考,如何在有限的人力以及資源下完成降本增效目標。
聽眾收益:
靚點1:基于B站團隊現狀如何做技術選型和規劃
靚點2:B站日志平臺是如何實現離在線統一的
靚點3:B站日志平臺是如何一步一步貫徹降本增效的劉健 字節跳動 Abase 產品研發負責人
個人介紹:字節跳動 Abase 產品研發負責人,在分布式存儲領域擁有10年技術經驗。曾在百度參與Mola,Aries等存儲系統的研發工作。當前主要關注超大規模的NoSQL數據庫在穩定性、成本、數據生態、多地域支持等方向的工作。
演講題目:Abase2:全球 NoSQL 數據庫中的 CRDT 支持實踐
演講提綱:Abase是字節內部使用最廣泛,體量最大的NoSQL數據庫之一,峰值QPS達到百億級,數據規模達到EB級。支持了推薦、搜索、廣告、頭條、抖音、電商等幾乎公司所有業務的在線KV存儲場景。隨著業務的發展,越來越多用戶需要在不同物理地域間部署Abase集群及同步數據解決就近讀寫、容災和資源瓶頸等問題;同時由于大量用戶通過Redis接口訪問Abase,我們設計實現了Abase2的多地域部署架構,并且提供主要Redis命令的CRDT支持,因此本次分享將圍繞Abase2在全球部署支持方面的工程實踐展開。具體內容包括:
1. 字節多地域部署的需求和挑戰
2. Abase2 的架構介紹
3. CRDT (conflict-free replicated data type)解決方案介紹
4. String/Hset/Zset 命令的 CRDT 支持工程實踐
聽眾收益:
1. 如何解決數據庫跨地域部署/同步/一致的需求
2. 如何實現 Redis 主要命令的 CRDT 支持
3. 如何在支持 CRDT 的同時實現高性能
4. 如何在多地域部署過程中同時做到成本優化
掃描二維碼免費報名
④向量數據庫架構與實踐向量數據庫是存儲大量向量數據的數據庫系統,它提供高效的向量存儲和檢索功能。向量數據庫通常使用專門的索引結構和算法,如倒排索引、KD樹、LSH等,以支持高效的向量搜索和相似度計算。由于生成式AI大模型的爆火,并且其特征存儲、計算所依賴的向量化處理可以由向量數據庫支持,因此向量數據庫也受到了廣泛關注。
在向量數據庫架構與實踐論壇中,我們邀請到了來自翼支付、Zilliz、極限科技等企業的專家,從原理和應用方面解析向量數據庫的技術細節,以及與大模型的優勢互補關系,為您的向量數據庫研發與實踐指引方向。
出品人:鄭偉 騰訊 大數據部平臺部 Senior TechLeader
個人介紹:在推薦、搜索、廣告領域深耕十多年,精通從正排、向量索引等基礎架構到召回、混排等業務系統。目前負責騰訊推薦系統中臺TRS的工作,服務騰訊內部十幾個大小推薦業務。徐華建 翼支付風險管理部總監
個人介紹:中國電信翼支付風險管理部總監,中國圖象圖形學學會視覺大數據專委會委員,多年視覺風控和內容安全算法及產品能力建設,目前負責翼支付視覺風控和內容安全相關AI能力建設。
演講題目:翼支付在向量檢索的應用與實踐
演講提綱:
向量檢索是一種通過計算向量之間的相似度來進行信息檢索的方法。它基于向量空間模型,將文本、圖像等數據表示為高維向量,并利用相似度計算來快速檢索相似的數據項。向量檢索是向量數據庫的一種應用,向量數據庫為向量檢索提供了基礎設施和算法支持,使得大規模向量數據的快速檢索成為可能。
向量檢索在很多領域有廣泛應用,如文本搜索、圖像檢索、推薦系統等。它在智能風控、電子商務、社交媒體、智能搜索等行業背景下發揮著重要作用,提供了高效的信息檢索和個性化推薦功能,為用戶提供更好的體驗和效率。
本次演講將分享如下內容:
1、為什么需要向量檢索
2、什么是向量檢索
3、如何進行向量化和檢索
4、翼支付在向量檢索中的應用
個人收益:
1、了解什么是向量檢索
2、了解如何進行向量化和向量檢索算法
3、了解翼支付在向量檢索的應用案例焦恩偉 Zilliz 首席工程師
個人介紹:焦恩偉是 Zilliz 首席工程師,是 Milvus 和 Apache Kylin 開源項目的 contributor,目前在 Zilliz 負責 Milvus 查詢引擎相關研發工作。在加入 Zilliz 之前,他曾就職于開源商業化公司 Kyligence,擔任 Apache Kylin 和 MDX for Kylin 商業產品的研發負責人。他在 OLAP、數據庫、大數據以及開源商業化領域積累了多年的產品研發經驗。焦恩偉擁有上海交通大學碩士學位。
演講題目:Milvus,AI Native 時代的向量數據庫
演講提綱:
1. 向量數據庫介紹
· 介紹向量的使用場景,要解決的問題和關系型數據庫的不同
· Milvus 發展歷程,架構發展脈絡
· Milvus 2.x 架構介紹
· Milvus 的性能優勢
2. 向量數據庫和 LLM 的結合
· 能夠解決大模型幻覺、私有數據訪問、實時數據等問題
· GPTCache 項目架構介紹,使用向量數據庫解決 LLM 延遲高、價格貴的方案
3. 常見的向量數據庫使用場景
4. 向量數據庫的發展趨勢
· 成本優化
· 關鍵詞索引和向量索引混合
· 多向量查詢
· 大模型神經網絡加速
聽眾收益:
1. 了解向量數據庫的設計原理
2. 了解大模型與向量數據庫如何優勢互補
3. 了解向量數據庫的使用場景
4. 了解在云原生數據庫的設計挑戰與解決方案
張磊 極限科技(INFINI Labs)搜索引擎研發工程師
個人介紹:極限科技 Easysearch 引擎研發工程師,13年開始接觸 Elasticsearch,10余年搜索相關經驗,之前主要做一些圍繞 Elasticsearch 在日志檢索和公安大數據相關業務的開發,對 Elasticsearch 和 Lucene 源碼比較熟悉,目前專注于公司內部搜索產品的開發。
演講題目:給 ES 插上向量檢索的翅膀
演講提綱:本次演講將探索 Elasticsearch(ES)與向量技術的融合,展示其在不同行業中的應用場景和優勢。我們將對 ES 與向量的技術細節進行詳細討論,并通過具體案例演示如何利用向量提升搜索能力。ES 作為強大的搜索引擎,面對著對更高級搜索功能的需求。然而,傳統基于文本的匹配在處理多樣的數據類型時存在限制。通過將 ES 與向量技術相結合,我們能夠打開新的搜索和檢索可能性。演講中,我們將展示基于語義的大文本檢索和混合檢索(如圖片、音視頻等),以展示向量技術在 ES 中的實際應用效果。我們將分享寶貴的見解和實用策略,為 ES 用戶和對搜索技術感興趣的聽眾提供有價值的知識。加入我們,共同探索 ES 與向量技術的交叉領域,了解如何利用向量技術提升搜索和檢索的能力。無論您是 ES 用戶還是對搜索技術的最新發展感興趣,本次演講將為您帶來深入洞察和實際應用的啟發。具體內容包括:
1. 向量檢索的介紹
2. 社區 ES 向量檢索介紹,包括功能介紹和演變歷程
3. 向量檢索在圖片、語義檢索等領域的應用
4. 極限科技在向量檢索領域的探索
聽眾收益:
1. 普及向量檢索知識
2. 了解 Elasticsearch 是如何進行向量檢索的
3. 了解如何快速搭建自己的向量檢索引擎
掃描二維碼免費報名
▌關于我們
DataFun 專注于大數據、人工智能技術應用的分享與交流。發起于2017年,在北京、上海、深圳、杭州等城市舉辦超過500場線上線下沙龍、論壇及峰會,已邀請近1600位專家和學者參與分享。旗下公眾號 DataFunTalk 累計生產原創文章1000+,百萬+閱讀,17萬+精準粉絲。
南京兆柏數據恢復中心 南京兆柏數據恢復中心