Spaces:

jinwei12
/

test

Sleeping

App Files Files Community

jinwei12 commited on Dec 8, 2023

Commit

3dffa84

•

1 Parent(s): acdb896

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -23

app.py CHANGED Viewed

@@ -16,6 +16,7 @@ from haversine import haversine, Unit
 dataset=None
 def generate_human_readable(tokens,labels):
  ret = []
  for t,lab in zip(tokens,labels):
@@ -49,12 +50,8 @@ def getSlice(tensor):
 def getIndex(input):
- # Model name from Hugging Face model hub
- model_name = "zekun-li/geolm-base-toponym-recognition"
- # Load tokenizer and model
- tokenizer = AutoTokenizer.from_pretrained(model_name)
- model = AutoModelForTokenClassification.from_pretrained(model_name)
  # Tokenize input sentence
  tokens = tokenizer.encode(input, return_tensors="pt")
@@ -126,11 +123,7 @@ def cutSlices(tensor, slicesList):
 def MLearningFormInput(input):
- model_name = "zekun-li/geolm-base-cased"
- tokenizer = AutoTokenizer.from_pretrained(model_name)
- model = GeoLMModel.from_pretrained(model_name)
  tokens = tokenizer.encode(input, return_tensors="pt")
@@ -181,11 +174,8 @@ def generate_human_readable(tokens,labels):
 def getLocationName(input_sentence):
  # Model name from Hugging Face model hub
- model_name = "zekun-li/geolm-base-toponym-recognition"
- # Load tokenizer and model
- tokenizer = AutoTokenizer.from_pretrained(model_name)
- model = AutoModelForTokenClassification.from_pretrained(model_name)
  # Tokenize input sentence
  tokens = tokenizer.encode(input_sentence, return_tensors="pt")
@@ -278,12 +268,14 @@ def search_geonames(toponym, df):
 def get50Neigbors(locationID, dataset, k=50):
  input_row = dataset.loc[dataset['GeonameID'] == locationID].iloc[0]
  lat, lon, geohash,name = input_row['Latitude'], input_row['Longitude'], input_row['Geohash'], input_row['Name']
- filtered_dataset = dataset.loc[dataset['Geohash'].str.startswith(geohash[:5])].copy()
  filtered_dataset['distance'] = filtered_dataset.apply(
  lambda row: haversine((lat, lon), (row['Latitude'], row['Longitude']), Unit.KILOMETERS),
@@ -291,6 +283,10 @@ def get50Neigbors(locationID, dataset, k=50):
  ).copy()
  filtered_dataset = filtered_dataset.sort_values(by='distance')
@@ -301,9 +297,8 @@ def get50Neigbors(locationID, dataset, k=50):
  neighbors=nearest_neighbors.values.tolist()
- model_name = "zekun-li/geolm-base-toponym-recognition"
- tokenizer = AutoTokenizer.from_pretrained(model_name)
  sep_token_id = tokenizer.convert_tokens_to_ids(tokenizer.sep_token)
  cls_token_id = tokenizer.convert_tokens_to_ids(tokenizer.cls_token)
@@ -328,8 +323,6 @@ def get50Neigbors(locationID, dataset, k=50):
  #--------------------------------------------
- model = GeoLMModel.from_pretrained(model_name)
  tokens = torch.Tensor(neighbor_token_list).unsqueeze(0).long()
@@ -351,6 +344,9 @@ def get50Neigbors(locationID, dataset, k=50):
  res=cutSlices(outputs.last_hidden_state, [targetIndex])
  return res
@@ -374,22 +370,55 @@ def cosine_similarity(target_feature, candidate_feature):
 def getCSV():
  dataset = pd.read_csv('geohash.csv')
  return dataset
 def showing(df):
  m = folium.Map(location=[df['lat'].mean(), df['lon'].mean()], zoom_start=5)
- size_scale = 100
- color_scale = 255
  for i in range(len(df)):
  lat, lon, prob = df.iloc[i]['lat'], df.iloc[i]['lon'], df.iloc[i]['prob']
  size = int(prob**2 * size_scale )
  color = int(prob**2 * color_scale)
  folium.CircleMarker(
  location=[lat, lon],
  radius=size,
@@ -398,8 +427,10 @@ def showing(df):
  fill_color=f'#{color:02X}0000'
  ).add_to(m)
  m.save("map.html")
  with open("map.html", "r", encoding="utf-8") as f:
  map_html = f.read()

 dataset=None
 def generate_human_readable(tokens,labels):
  ret = []
  for t,lab in zip(tokens,labels):
 def getIndex(input):
+ tokenizer, model= getModel1()
  # Tokenize input sentence
  tokens = tokenizer.encode(input, return_tensors="pt")
 def MLearningFormInput(input):
+ tokenizer,model=getModel2()
  tokens = tokenizer.encode(input, return_tensors="pt")
 def getLocationName(input_sentence):
  # Model name from Hugging Face model hub
+ tokenizer, model= getModel1()
  # Tokenize input sentence
  tokens = tokenizer.encode(input_sentence, return_tensors="pt")
 def get50Neigbors(locationID, dataset, k=50):
+ print("neighbor part----------------------------------------------------------------")
  input_row = dataset.loc[dataset['GeonameID'] == locationID].iloc[0]
  lat, lon, geohash,name = input_row['Latitude'], input_row['Longitude'], input_row['Geohash'], input_row['Name']
+ filtered_dataset = dataset.loc[dataset['Geohash'].str.startswith(geohash[:7])].copy()
  filtered_dataset['distance'] = filtered_dataset.apply(
  lambda row: haversine((lat, lon), (row['Latitude'], row['Longitude']), Unit.KILOMETERS),
  ).copy()
+ print("neighbor end----------------------------------------------------------------")
  filtered_dataset = filtered_dataset.sort_values(by='distance')
  neighbors=nearest_neighbors.values.tolist()
+ tokenizer, model= getModel1_0()
  sep_token_id = tokenizer.convert_tokens_to_ids(tokenizer.sep_token)
  cls_token_id = tokenizer.convert_tokens_to_ids(tokenizer.cls_token)
  #--------------------------------------------
  tokens = torch.Tensor(neighbor_token_list).unsqueeze(0).long()
  res=cutSlices(outputs.last_hidden_state, [targetIndex])
  return res
 def getCSV():
  dataset = pd.read_csv('geohash.csv')
  return dataset
+@st.cache_data
+def getModel1():
+ # Model name from Hugging Face model hub
+ model_name = "zekun-li/geolm-base-toponym-recognition"
+ # Load tokenizer and model
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
+ model = AutoModelForTokenClassification.from_pretrained(model_name)
+ return tokenizer,model
+def getModel1_0():
+ # Model name from Hugging Face model hub
+ model_name = "zekun-li/geolm-base-toponym-recognition"
+ # Load tokenizer and model
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
+ model = GeoLMModel.from_pretrained(model_name)
+ return tokenizer,model
+def getModel2():
+ model_name = "zekun-li/geolm-base-cased"
+ tokenizer = AutoTokenizer.from_pretrained(model_name)
+ model = GeoLMModel.from_pretrained(model_name)
+ return tokenizer,model
 def showing(df):
  m = folium.Map(location=[df['lat'].mean(), df['lon'].mean()], zoom_start=5)
+ size_scale = 100
+ color_scale = 255
  for i in range(len(df)):
  lat, lon, prob = df.iloc[i]['lat'], df.iloc[i]['lon'], df.iloc[i]['prob']
  size = int(prob**2 * size_scale )
  color = int(prob**2 * color_scale)
+ # 在Folium地图上添加标记
  folium.CircleMarker(
  location=[lat, lon],
  radius=size,
  fill_color=f'#{color:02X}0000'
  ).add_to(m)
+ # 保存Folium地图为HTML文件
  m.save("map.html")
+ # 在Streamlit中嵌入HTML文件
  with open("map.html", "r", encoding="utf-8") as f:
  map_html = f.read()