GLiNER:使用双向 Transformer 的命名实体识别通用模型
Urchade Zaratiana、Nadi Tomeh、Pierre Holat、Thierry Charnois arXiv:2311.08526 [ cs.CL, cs.AI, cs.LG ] github:urchade/GLiNER
作者:摘要
命名实体识别 (NER) 在各种自然语言处理 (NLP) 应用中至关重要。传统的 NER 模型有效但受限于一组预定义的实体类型。相比之下,大型语言模型 (LLM) 可以通过自然语言指令提取任意实体,提供更大的灵活性。然而,它们的规模和成本,特别是那些通过 API(如 ChatGPT)访问的 LLM,使其在资源有限的场景中不切实际。在本文中,我们介绍了一种紧凑的 NER 模型,该模型经过训练可识别任何类型的实体。我们的模型 GLiNER 利用双向 Transformer 编码器,便于并行实体提取,这是优于 LLM 缓慢的序列式 token 生成的优势。通过全面的测试,GLiNER 展现出强大的性能,在各种 NER 基准的零样本评估中,其表现优于 ChatGPT 和经过微调的 LLM。