import os
import cpca
import re
import pandas as pd

def get_city_info(text):
    # 获取当前脚本所在目录的上一级目录
    current_dir = os.path.dirname(__file__)
    parent_dir = os.path.abspath(os.path.join(current_dir, os.pardir))

    # 读取区县数据
    df_county_addr = os.path.join(parent_dir, 'docs', '区县.xlsx')
    df_county=pd.read_excel(df_county_addr)
    # 读取乡镇数据
    df_town_addr = os.path.join(parent_dir, 'docs', '乡镇.xlsx')
    df_town = pd.read_excel(df_town_addr)

    # 读取市级数据
    df_city_addr = os.path.join(parent_dir, 'docs', '市.xlsx')
    df_city = pd.read_excel(df_city_addr)

    # 使用cpca库提取地名
    df = cpca.transform([text])

    province = None
    city = None
    district = None

    if not df.empty:
        province = df.iloc[0]['省']
        city = df.iloc[0]['市']
        district = df.iloc[0]['区']

    if province is None and city is None and district is None:
        # 使用正则表达式提取乡镇信息
        towns = re.findall(r'[\u4e00-\u9fa5]+镇|[\u4e00-\u9fa5]+乡|[\u4e00-\u9fa5]+街道|[\u4e00-\u9fa5]+庄|[\u4e00-\u9fa5]+营|[\u4e00-\u9fa5]+店', text)
        if towns:
            for town in towns:
                town_name = None
                if town in df_town['乡镇名称'].values or town in df_town['乡镇简称'].values:
                    town_name = town

                    # 根据乡镇名查找对应的区县代码
                    town_info = df_town[df_town['乡镇名称'] == town_name].iloc[0]
                    county_code = town_info['区县代码']

                    # 根据区县代码查找对应的区县名称
                    county_info = df_county[df_county['区县代码'] == county_code].iloc[0]
                    county_name = county_info['区县名称']

                    # 将区县名称转换成对应的省份名称
                    province = county_name

                    # 尝试在市级数据中查找对应的市信息
                    city_code = county_info['城市代码']
                    city_info = df_city[df_city['城市代码'] == city_code]
                    if not city_info.empty:
                        city = city_info.iloc[0]['城市名称']

                        # 将城市名称转换成对应的省份名称
                        df_city_result = cpca.transform([city])
                        province = df_city_result.iloc[0]['省']

                    break# 找到乡镇信息后跳出循环
                else:
                    continue
    return province, city, district

if __name__ == '__main__':

    # 使用方法示例
    province, city, district = get_city_info("杞县文化广电新闻出版旅游局")
    if province==None or city==None or district==None:
        print("44444")
    print(province, city, district)