信息檢索術語表

信息檢索術語表
搜索引擎Search Engine Optimization 數位行銷

很多時候,當閱讀複雜的主題,研究論文甚至是業內一些更先進的SEO的博客時,我迷失了術語的含義,整個段落或文檔可能會因我的無知而丟失。幸運的是,像伯克利大學的現代信息檢索詞彙表這樣的大量資源。

我已經選擇了一些比較重要的術語:

聚類 – 滿足一組公共屬性的文檔分組。目的是將他們之間相關的文件組合在一起。例如,可以使用群集來擴展具有新索引術語和相關索引術語的用戶查詢。
E測量 – 一種信息檢索性能測量,與調和平均值不同,它結合了召回和精確度。
廣義向量空間模型 – 基於對術語 – 術語獨立性的較少限制性解釋的經典向量模型的推廣。
信息檢索 – (IR)計算機科學的一部分,研究從書面文檔集合中檢索信息(而不是數據)。檢索到的文檔旨在滿足通常以自然語言表達的用戶信息需求。
潛在語義索引 – 一種基於索引項矢量空間奇異值分解的文檔檢索代數模型。
概率模型 – 基於文檔相關性(對給定用戶查詢)的概率解釋的文檔檢索的經典模型。
詞幹 – 一種將語言簡化為語法根源的技巧。
TREC集合 – 一個參考集合,包含超過一百萬個文檔,並已在TREC會議中廣泛使用。 TREC系列由NIST組織,正在成為比較IR模型和算法的標準。
Zipf定律 – 描述文本詞頻率的經驗規則。它指出,第i個最頻繁的單詞出現的次數是最常用的單詞除以i?,因為某些Ã<= 1。