上場企業のデータをまとめてみた。(データ集計編)

昔、お仕事の用があって、「栃木県」の上場企業をまとめたことがある。これがすごく時間がかかって。。。でも、栃木だけじゃなくて、オラが街に投資をしたいという要望って少しはあるようにおもったので、まとめてみた。

やり方は以下のとおり。
(1)東京証券取引所から、データをダウンロード(https://www.jpx.co.jp/markets/statistics-equities/misc/01.html
東証さんのデータの場所わかりにくいんだよね・・・

(2)googleのデータシートで、プライム、スタンダード、グロースの国内株式だけ抽出
(3)とあるサイトから、本社住所データを拝借(pythonでスクレイピング)
(4)とあるサイトから、時価総額データを拝借(pythonでスクレイピング+文字列補正)
(5)住所データから、都道府県データを追加。コードはこんな感じ

def extract_prefecture(address):
    # 日本の都道府県のリスト
    prefectures = ["北海道", "青森県", "岩手県", "宮城県", "秋田県", "山形県", "福島県", "茨城県", "栃木県", "群馬県", "埼玉県", "千葉県", "東京都", "神奈川県", "新潟県", "富山県", "石川県", "福井県", "山梨県", "長野県", "岐阜県", "静岡県", "愛知県", "三重県", "滋賀県", "京都府", "大阪府", "兵庫県", "奈良県", "和歌山県", "鳥取県", "島根県", "岡山県", "広島県", "山口県", "徳島県", "香川県", "愛媛県", "高知県", "福岡県", "佐賀県", "長崎県", "熊本県", "大分県", "宮崎県", "鹿児島県", "沖縄県"]
    
    # 都道府県を抽出
    for prefecture in prefectures:
        if prefecture in address:
            return prefecture

    # 都道府県が見つからない場合
    return "都道府県が見つかりませんでした"

# テスト
address = "〒100-0001 東京都千代田区千代田1-1"
print(extract_prefecture(address))

data["都道府県"]=data["住所"].apply(extract_prefecture)
data

ここは、いつものBingのcopilot先生に教えてもらいました。

(6)最後にCSVファイルのgoogleのスプレッドシートに戻して。
(7)LockerStdioで見える化して完成!!

じゃ〜〜〜ん

次回以降、少しデータを見た感想を少し。

コメント

タイトルとURLをコピーしました