Merge branch 'pr/5' into dev

wannaphong · wannaphong · commit 6554eb9b904b · 2021-02-09T22:17:29.000+07:00
diff --git a/Dockerfile b/Dockerfile
@@ -1,4 +1,4 @@
-FROM python:3.6
+FROM python:3.7
 MAINTAINER Wannaphong Phatthiyaphaibun <wannaphong@kkumail.com>
 WORKDIR /app
 EXPOSE 8000
diff --git a/app.py b/app.py
diff --git a/docker-compose.yml b/docker-compose.yml
@@ -0,0 +1,8 @@
+version: "3"
+services:
+  api:
+    build: .
+    volumes:
+      - .:/usr/src/app
+    ports:
+      - "8000:8000"
diff --git a/main.py b/main.py
@@ -0,0 +1,35 @@
+# -*- coding: utf-8 -*-
+from fastapi import Depends, FastAPI, Header, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+from routers import tag, tokenize
+import uvicorn
+import pythainlp
+
+DESC_TEXT = "Pythainlp API"
+
+app = FastAPI(
+    title='Pythainlp API',
+    description=DESC_TEXT,
+    version='0.1',
+)
+
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+
+
+@app.get("/")
+def index():
+    return {"Pythainlp Version": pythainlp.__version__}
+
+
+app.include_router(tag.router, prefix="/tag", tags=["Tag"])
+app.include_router(tokenize.router, prefix="/tokenize", tags=["Tokenize"])
+
+
+if __name__ == "__main__":
+    uvicorn.run(app, host="0.0.0.0", port=8000)
diff --git a/routers/tokenize.py b/routers/tokenize.py
@@ -1,12 +1,62 @@
 # -*- coding: utf-8 -*-
 from fastapi import APIRouter
 from pythainlp import tokenize
+from enum import Enum
+from typing import List, Optional
+from pydantic import BaseModel
 
 router = APIRouter()
 
 
-@router.get("/tokenize/word_tokenize", tags=["tokenize"])
-def word_tokenize(q: str, engine: str = None):
-    if not engine:
-        engine = "newmm"
-    return "|".join(tokenize.word_tokenize(q, engine=engine))
+class SentTokenizeEngine(str, Enum):
+    whitespace = "whitespace"
+    whitespace_newline = "whitespace+newline"
+
+
+class WordTokenizeEngine(str, Enum):
+    newmm = "newmm"
+    longest = "longest"
+    deepcut = "deepcut"
+    icu = "icu"
+    ulmfit = "ulmfit"
+
+
+class SubwordTokenizeEngine(str, Enum):
+    tcc = "tcc"
+    etcc = "etcc"
+
+
+class SentTokenizeResponse(BaseModel):
+    sents: List[str] = []
+
+
+class WordTokenizeResponse(BaseModel):
+    words: List[str] = []
+
+
+class SyllableTokenizeResponse(BaseModel):
+    syllables: List[str] = []
+
+
+class SubwordTokenizeResponse(BaseModel):
+    subwords: List[str] = []
+
+
+@router.get('/sent', response_model=SentTokenizeResponse)
+def sent_tokenize(q: str, engine: SentTokenizeEngine = "whitespace"):
+    return {"sents": tokenize.sent_tokenize(q, engine=engine)}
+
+
+@router.get('/word', response_model=WordTokenizeResponse)
+def word_tokenize(q: str, engine: WordTokenizeEngine = "newmm"):
+    return {"words": tokenize.word_tokenize(q, engine=engine)}
+
+
+@router.get('/syllable', response_model=SyllableTokenizeResponse)
+def syllable_tokenize(q: str):
+    return {"syllables": tokenize.syllable_tokenize(q)}
+
+
+@router.get('/subword', response_model=SubwordTokenizeResponse)
+def subword_tokenize(q: str, engine: SubwordTokenizeEngine = "tcc"):
+    return {"subwords": tokenize.subword_tokenize(q, engine=engine)}

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-FROM python:3.6`
	`1`	`+FROM python:3.7`
`2`	`2`	`MAINTAINER Wannaphong Phatthiyaphaibun <[email protected]>`
`3`	`3`	`WORKDIR /app`
`4`	`4`	`EXPOSE 8000`