01
简介
02
方法
1. 分块采样(Chunk sampling)
数据预处理:对源数据进行预处理,例如去除无关字符、分词等。
关键词提取:使用 K-means 聚类算法将预处理后的数据分割成多个聚类,并选择每个聚类中与质心最近的 个词作为关键词。关键词代表了文本中的重要信息。 样本选择: 计算 TF-IDF 向量:对每个聚类中的文本计算 TF-IDF 向量,用于评估每个文本的重要性。 计算熵值:计算每个文本的熵值,用于评估每个文本的多样性。 选择样本:选择包含所有关键词且熵值最大的 个文本作为样本。样本选择算法旨在选择具有代表性的文本,涵盖源数据的语法特征。
2. 模式学习(Schema learning)
生成模式:将样本文本提交给 LLM,生成初始的 JSON 模式。
评估模式:使用 LLM 评估生成的模式的质量,例如是否包含所有实体类型、属性描述是否准确等。
修改模式:根据评估结果修改模式,例如添加或删除实体类型、修改属性描述等。
重复迭代:重复执行生成模式、评估模式和修改模式的步骤,直到获得最佳结构。
3. 脚本学习(Script learning)
生成代码:将源数据样本提交给 LLM,生成初始的解析代码。
评估代码:使用 LLM 评估生成的代码的质量,例如是否能够正确解析源数据、是否能够生成结构化数据等。
修改代码:根据评估结果修改代码,例如修复解析错误、改进代码结构等。
重复迭代:重复执行生成代码、评估代码和修改代码的步骤,直到获得最佳解析效果。
4. 信息检索(Information Retrieval)
实体节点创建:在JSON对象中识别的每个实体都作为一个节点插入到KG中,实体类型作为节点的标签。 属性节点创建:实体的简单类型属性直接作为节点的属性赋值,而属性本身为对象的,则作为子节点插入,并与其父节点连接。 文本节点创建:对于每个实体的输入数据属性中的每一行,都创建一个相应的节点,并链接到父实体节点。这些输入数据节点将用于利用NLP方法进行文本搜索。
图查询:使用 LLM 生成 GQL 语句,从知识图谱中检索相关信息。 文本搜索:使用 LLM 生成一个仅利用文本搜索功能的 GQL 语句,利用文本搜索功能检索相关信息。 混合查询:同时执行图查询和文本搜索,并将结果合并生成最终答案。 Hybrid 查询:结合了KG查询和文本搜索的能力,指示LLM生成一个能够利用两种方法的任何相关功能的GQL语句。
03
总结
文章来自互联网,如有侵权请联系作者删除!
发表留言 取消回复