Kenny Programming

python pandas 이용해서 xml정보 파싱 후 csv 엑셀로 저장하기[2]

2019. 2. 12. 11:19

1편에서 pandas를 이용해 xml정보를 csv엑셀로 저장하는것을 해보았다.

그러다 특정 정보에서 charge라는 요금항목을 누락해서 xml return해주는 경우가 발생해서

오류가 났다.

☆ 정상 xml 리턴

<item>

<arrPlaceNm>전주</arrPlaceNm>
<arrPlandTime>201707011100</arrPlandTime>
<charge>20500</charge>
<depPlaceNm>상봉</depPlaceNm>
<depPlandTime>201707010800</depPlandTime>
<gradeNm>우등</gradeNm>
<routeId>NAEK040602</routeId>

</item>

☆ 누락된 xml 리턴

<item>
<arrPlaceNm>안동</arrPlaceNm>
<arrPlandTime>201707011000</arrPlandTime>
<depPlaceNm>서울경부</depPlaceNm>
<depPlandTime>201707010720</depPlandTime>
<gradeNm>우등</gradeNm>
<routeId>NAEK010840</routeId>
</item>

df.loc[i] = [item.arrplacenm.text, item.arrplandtime.text, item.charge.text, item.depplacenm.text,
AttributeError: 'NoneType' object has no attribute 'text'

Process finished with exit code 1

조건을 주어 에러를 방지해야하겠다.

기존의 코드는 이러했다.

for item in items.findAll("item"):

    df.loc[i] = [item.arrplacenm.text, item.arrplandtime.text, item.charge.text, item.depplacenm.text,
                 item.depplandtime.text, item.gradenm.text, item.routeid.text]

    i=i+1

에러방지를 위해 아래와 같이 추가해 주었다.

charge = "-"

for item in items.findAll("item"):

    if (item.charge != None):
        charge = item.charge.text
    else:
        charge = "-"

    df.loc[i] = [item.arrplacenm.text, item.arrplandtime.text, charge, item.depplacenm.text,
                 item.depplandtime.text, item.gradenm.text, item.routeid.text]

    i=i+1

item에 charge가 있을때만 가져오고 없을때는 -로 저장되도록 수정하고 정상적으로 작동되었다.

다른값들도 혹시나 하는 오류를 방지를 위해서 위와같이 변경해줘도 좋을것 같다.

저작자표시

'Python' 카테고리의 다른 글

python pandas로 중복된 데이터 제거하기 (0)	2019.03.15
python pandas 이용해서 xml정보 파싱 후 csv 엑셀로 저장하기[1] (0)	2019.02.11

python pandas 이용해서 xml정보 파싱 후 csv 엑셀로 저장하기[1]

2019. 2. 11. 16:12

# -*- coding: utf-8 -*-

import os
from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd

output_path = "output"
output_file = "고속_test.csv"
if not os.path.exists(output_path):
    os.makedirs(output_path)

df = pd.DataFrame(columns=['arrPlaceNm', 'arrPlandTime', 'charge', 'depPlaceNm', 'depPlandTime', 'gradeNm', 'routeId']) # 엑셀 헤더정보

i=0

url = 'xml정보 주소'

data = urlopen(url).read()
soup = BeautifulSoup(data, "html.parser")
items = soup.find("items")

for item in items.findAll("item"):

    df.loc[i] = [item.arrplacenm.text, item.arrplandtime.text, item.charge.text, item.depplacenm.text,
                 item.depplandtime.text, item.gradenm.text, item.routeid.text]

    i=i+1

df.to_csv(os.path.join(output_path, output_file), encoding='euc-kr', index=False)

위와 같이 pandas를 이용해 어렵지 않게 csv로 원하는 정보를 얻을수 있었다.

하지만 여기에서 문제가 발생했다.

위와같이 YYYYMMDDHHmm의 데이터를 지수형으로 표시해주고있다.

Ctrl + C로 복사후 메모장 같은 곳에 붙여 넣어도 지수형으로 붙여 넣어진다.

위 문제가 생긴 2개의 정보에 아래와 같이 코드를 추가해 주었다.

df['arrPlandTime'] = '="' + df['arrPlandTime'] + '"'
df['depPlandTime'] = '="' + df['depPlandTime'] + '"'

이제 다시 엑셀을 확인해보자

엑셀에도 이쁘게 잘 나오고

복사 후 메모장 등에 붙여넣어도 정확하게 표시된다.

저작자표시

'Python' 카테고리의 다른 글

python pandas로 중복된 데이터 제거하기 (0)	2019.03.15
python pandas 이용해서 xml정보 파싱 후 csv 엑셀로 저장하기[2] (0)	2019.02.12

PREV 1 2 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Kenny Programming

python pandas 이용해서 xml정보 파싱 후 csv 엑셀로 저장하기[2]

'Python' 카테고리의 다른 글

python pandas 이용해서 xml정보 파싱 후 csv 엑셀로 저장하기[1]

'Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역