2019年5月30日木曜日

Dockerでpython3.7とnewspaper3kをインストールしたコンテナ(Alpine3.9ベース)を作成する

newspaper3kでウェブページを読み込んで解析する事ができます。

以下のコマンドとDockerfileを使用してpython3.7とnewspaper3kがインストールされたイメージを作成する事ができます。
docker build -t newspaper3k:1.0 .

Dockerfile
FROM python:3.7-alpine3.9
RUN apk --no-cache add libstdc++ \
    libxml2 \
    libxslt \
    libjpeg-turbo \
  && apk --no-cache --virtual pydeps add gcc \
    g++ \
    python3-dev \
    musl-dev \
    cython \
    libxml2-dev \
    libxslt-dev \
    jpeg-dev \
    zlib-dev \
    libpng-dev \
  && pip install newspaper3k \
  && apk del --purge pydeps
CMD ["/bin/sh"]

以下のコマンドでサンプルコードを実行して、ウェブページから題名、本文を表示します。
docker run -v `pwd`:/tmp --rm -it newspaper3k:1.0 /usr/local/bin/python3 /tmp/test.py

test.py
from newspaper import Article
a = Article('http://serverarekore.blogspot.com/2019/05/dockerpython37janomealpine39.html', language='ja')
a.download()
a.parse()
# print title/text of the page.
print(a.title)
print(a.text)

0 件のコメント:

コメントを投稿