text-search-ada-doc-001

OpenAI模型

字体:

text-search-ada-doc-001 是 OpenAI 推出的一款‌文本搜索嵌入模型‌,属于其第一代嵌入模型系列(以 -001 结尾)。该模型专门用于将‌长文档‌转换为数值向量(即“嵌入”),以便在信息检索、搜索和上下文相关性排序等任务中使用。 ‌

主要特点与用途

  • ‌核心功能‌:该模型旨在衡量‌长文档‌与‌短搜索查询‌之间的相关性。在实际应用中,通常会将待检索的文档通过 text-search-ada-doc-001 进行嵌入,而用户的搜索查询则会使用配套的查询模型 text-search-ada-query-001 进行嵌入,然后通过计算向量间的相似度来找到最相关的文档。 ‌

  • ‌模型系列‌:它是 OpenAI 第一代嵌入模型的一部分,基于 Ada 系列模型构建,参数规模约为 12 亿。 ‌

  • ‌输入限制‌:该模型的最大输入长度为 ‌2046 个 token‌。 ‌

  • ‌训练数据截止‌:其训练数据的截止时间约为 ‌2020 年 8 月‌。 ‌

当前状态与建议

需要注意的是,text-search-ada-doc-001 及其同系列的第一代模型(如 text-search-babbage-doc-001, text-search-curie-doc-001 等)已被 OpenAI 列为‌旧版模型‌,并建议用户迁移到更先进的替代品。 ‌

目前,OpenAI 推荐用于绝大多数文本嵌入场景的模型是 ‌text-embedding-ada-002‌。这款第二代模型在性能、成本和易用性方面均有显著提升,支持更长的输入(8191 个 token),并且是当前 API 的默认推荐选择。 ‌

因此,虽然 text-search-ada-doc-001 仍可被调用,但对于新项目或需要优化的现有系统,建议优先采用 text-embedding-ada-002。

立即使用大模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能

立即使用此模型

免费体验最新的AI大模型,支持对话、写作、编程、图像、视频等多种功能