内容提取服务

服务简码 HNLP

默认端口 8230

默认路由 /hnlp/**

组件编码 hzero-nlp

简介

1.1 概述

自然语言提取。

1.2 组件坐标

OP版本

<dependency>
    <groupId>org.hzero</groupId>
    <artifactId>hzero-nlp</artifactId>
    <version>${hzero.service.version}</version>
</dependency>

SaaS版本

<dependency>
	<groupId>org.hzero</groupId>
    <artifactId>hzero-nlp-saas</artifactId>
    <version>${hzero.service.version}</version>
</dependency>

1.3 主要功能

基础数据管理
模板管理
词语映射
内容提取测试

1.4 服务配置参数

# 文本识别接口
nlp.python.url: ${NLP_PYTHON_URL:http://python.hzero.org:5000/text_extract}
# 缓存获取接口
nlp.python.evict: ${NLP_PYTHON_EVICT:http://python.hzero.org:5000/cache_evict}

部署指导

2.1 CoreNLP

硬件要求：

4GB RAM+
2 Cores+

操作系统:

Centos,Ubuntu等linux发行版
Docker

部署命令:

docker run --name=corenlp -p 9000:9000 -d registry.saas.hand-china.com/hzero/corenlp:1.0

容器内监听端口：tcp/9000

2.2 Python NLP

硬件要求：

4GB RAM+
4Cores+

操作系统:

Centos,Ubuntu等linux发行版
Docker

部署镜像：

docker run --name=nlp-worker\
 -p 5000:5000\
 -d -e CORE_NLP_HOST=http://192.168.11.167\
 registry.choerodon.com.cn/hzero-hzero/hzero-nlp-worker:0.10.1.RELEASE

通过-p指定外部监听端口号，通过-e 指定环境变量参数，具体参数见下表
容器内监听端口：tcp/5000 也可由WSGI_BIND参数指定

2.3 环境变量：

变量名称	变量说明	示例
WSGI_WORKERS	WSGI web服务器工作线程数，建议不要超过服务器cpu核心数两倍	4
WSGI_BIND	Web服务监听端口	0.0.0.0:5000
CACHE_NUM	内存缓存条目数量，文本识别时所有的内存缓存，根据服务器内存大小调整	60000
CACHE_TTL	内存缓存失效时间，单位是秒	86400
CORE_NLP_HOST	CoreNLP服务host地址	http://localhost
CORE_NLP_PORT	CoreNLP服务端口号	9000
MONGO_URL	mongodb的url	mongodb://user:passsword@172.20.0.201:27017
MONGO_DB	mongodb中的数据库名称	hzero_nlp
REDIS_HOST	redis服务ip	redis.hzero.org
REDIS_PORT	redis端口号	6379
REDIS_DB	redis db号	1