Python自然语言处理NLP相关开源API

做一个柔情的程序猿

共 2540字,需浏览 6分钟

 · 2022-06-07

⭐️Wit.ai

文档: wit.ai/docs

Demo: labs.wit.ai/demo/index.…

如果需要为开发人员提供与语音自动化相关的日常工作,那么它将是最佳选择。Wit为家庭自动化、联网汽车、机器人、智能手机、可穿戴设备等创建智能语音界面。而且还免费。

⭐️Geneea

文档: api.geneea.com/

Demo: demo.geneea.com/

Geneea对提供的原始文本,从给定URL提取的文本或直接从提供的文档执行分析(自然语言处理)。Geneea对语言、主题识别、情感检测、实体提取、自动标记等主题进行分析,并对捷克文本的变音符号进行各种校正。

⭐️Hugging Face Transformers

GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX.

Transformers提供了数千个预训练模型来执行不同形式的任务,例如文本、视觉和音频。这些模型可应用于文本(文本分类、信息提取、问答、摘要、翻译、文本生成,支持超过 100 种语言)、图像(图像分类、对象检测和分割)和音频(语音识别和音频分类 )。Transformer 模型还可以结合多种模式执行任务,例如表格问答、OCR、从扫描文档中提取信息、视频分类和视觉问答。

⭐️Gensim

https://github.com/RaRe-Technologies/gensim

gensim · PyPI

Gensim 是一个 Python 库,用于主题建模、文档索引和大型语料库的相似性检索。目标受众是 NLP 和信息检索 (IR) 社区。Gensim 具有流行算法的高效多核实现,包括但不限于Latent Semantic Analysis (LSA/LSI/SVD)、Latent Dirichlet Allocation (LDA)、Random Projections (RP)、Hierarchical Dirichlet Process(HDP) 或 word2vec 深度学习等。

⭐️Diffbot Analyze

文档: www.diffbot.com/dev/docs/

Demo: www.diffbot.com/

该API执行自动识别、分析和提取,可以轻松地从任何URL传送每个数据(文本,照片,视频)。它将人工智能、机器学习、计算机视觉和NLP相结合。此外,可以将其与自定义API同时使用,以便使用手动规则来获取数据。

⭐️Bitext

文档: docs.api.bitext.com/

Demo: parser.bitext.com/

Bitext API是另一个深度语言分析工具,提供易于导出到各种数据管理工具的数据。该平台产品可用于聊天机器人和智能助手、CS和Sentiment,以及一些其他核心NLP任务。这个API的重点是语义、语法、词典和语料库,可用于80多种语言。此外,该API是客户反馈分析自动化方面的最佳API之一。该公司声称可以将洞察的准确度做到90%。

⭐️AllenNLP

GitHub - allenai/allennlp-models: Officially supported AllenNLP models

AllenNLP是基于 PyTorch 构建的 NLP 研究库,使用开源协议为Apache 2.0 ,它包含用于在各种语言任务上开发最先进的深度学习模型并提供了广泛的现有模型实现集合,这些实现都是按照高标准设计,为进一步研究奠定了良好的基础。AllenNLP 提供了一种高级配置语言来实现 NLP 中的许多常见方法,例如transformer、多任务训练、视觉+语言任务、公平性和可解释性。这允许纯粹通过配置对广泛的任务进行实验,因此使用者可以专注于解决研究中的重要问题。

⭐️CoreNLP

CoreNLP: CoreNLP 是斯坦福提供的一组用Java编写的自然语言分析工具

斯坦福 CoreNLP 提供了一组用 Java 编写的自然语言分析工具。它可以接收原始的人类语言文本输入,并给出单词的基本形式、词性、公司名称、人名等,规范化和解释日期、时间和数字量,标记句子的结构 在短语或单词依赖方面,并指出哪些名词短语指的是相同的实体。

⭐️PyTorch-NLP

https://github.com/PetrochukM/PyTorch-NLP

PyTorch-NLP 扩展了 PyTorch并提供基本的文本数据处理功能。


🚩NLP技术难点总结

自然语言理解的5个难点:

  1. 语言的多样性

  2. 语言的歧义性

  3. 语言的鲁棒性

  4. 语言的知识依赖

  5. 语言的上下文

在多模态的自然语言处理技术方面,也有三大难点:

  • 其一,语义鸿沟是普遍存在的,单模态尚且如此,多模态要融合时无疑难上加难;

  • 其二,多模态数据间存在特征异构性,跨模态相关算法要有质的飞跃;

  • 其三,建立多模态的数据集面临极大的挑战;

数据匮乏也是NLP领域里一个永恒的问题,缺乏标注数据、样本存在大量噪声、数据存在偏差都是很常见的现象。在AI研发中,算力是基础,算法基本开源,数据自然而然就成为了各家研究机构和企业角力的核心。尤其是当你需要一些特定的数据时,仅仅采集数据的代价就可能超出预估。


推荐阅读

(点击标题可跳转阅读)

python程序设计思想

【初学不要怕】教你全方位理解python函数及其使用(包括lambda函数和递归函数详解系列)

【加解密算法实现】全面剖析RSA加解密算法(附完整C/Python源码)

详解python的运行方式

强推10款Python常用的开发工具

【专家推荐】保姆级开源工具推荐,一用一个爽,非常劲爆(收藏系列)

【恭喜考研拟录取】极力推荐科研必备软件,让你科研生涯事半功倍

带你全面剖析python自然语言处理(NLP系列一)

带你全面剖析python自然语言处理(NLP技术要点)

带你全面剖析python自然语言处理(TF-IDF和TextRank)

老铁,三连支持一下,好吗?↓↓↓


点分享

点点赞

点在看

浏览 49
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报