Búsqueda de sub valor de cadena en Numpy Array

Question

En primer lugar, estoy usando  Python  y la última edición de Pycharm Community. Actualmente estoy trabajando en una interfaz de usuario con tkinter que está solicitando varios valores del usuario - dos valores de cadena y un entero. Posteriormente el programa debe buscar a través de un archivo Excel o CSV para encontrar esos valores. Infortuantemente, estoy actualmente atrapado en la primera entrada. He creado una matriz numposa del marco de datos, ya que he leído que los arrays son mucho más rápido cuando se trata de trabajar con grandes datos. El archivo final excel/csv con el que estoy trabajando contiene varios miles de filas y hasta 60 columnas. Además, el enrty_name podría ser una sub cadena de una cadena más grande y la búsqueda algortihm debe encontrar la fracción o el nombre completo ( ejemplo: entrada:  BMW , en array([ BMW Werk ,  BMW-Automobile ,  BMW_Client ], [ BMW Part1 ,  BMW Part2 ,  XS-12354 ]). Después me gustaría proceder con otros cálculos basados en los valores de la matriz. Ejemplo: entrada:  BMW , en array([ BMW Werk ,  Car1 ,  XD-12345 ], [ BMW Part1 ,  exauster ,  XS-12354 ]) Programa encontrado  BMW Werk  y  BMW Part1  en array, devuelve [ BMW Werk ,  Car1 ,  XD-12345 ] y [ BMW Part1 ,  exauster ,  XS-12354 ] entry_name =  BMW  path_for_excel =  D: Python PyCharm Tool Clientlist.xslx  client_list_df= pd.read_excel(path_for_excel , engine= openpyxl ) client_list_array= client_list_df.to_numpy() #first check if entry_name is populated ( entry field in ui ) if entry_name == True: #search for sub string in string part_string_value = np.char.startswith(client_list_array, entry_name) if part_string_value in client_list_array: index = np.where(client_list_array == part_string_value) #print found value, including the other values in the list print(client_list_array[]) Soy capaz de recuperar los valores solicitados si el cliente está usando el nombre correcto y completo como  BMW Werk , pero cualquier tipopo obstaculizará el proceso y es muy exausting para algunos nombres para escribir el nombre completo, como ejemplo un nombre parece:  BMW Werk Bloemfontein, 123-45, Willows . Esperemos que alguien encuentre tiempo para ayudar con mi problema. ¡Gracias!

Gpt · Accepted Answer

Para buscar una subcadena en un array NumPy, puedes utilizar la función np.char.find() en lugar de np.char.startswith(). La función np.char.startswith() solo verifica si la cadena empieza con la subcadena especificada, mientras que np.char.find() busca la subcadena en cualquier parte de la cadena.

Aquí te dejo una corrección en tu código para lograr lo que estás buscando:

python
import numpy as np
import pandas as pd

entry_name = "BMW"
path_for_excel = "D:\Python PyCharm\Tool\Clientlist.xslx"
client_list_df = pd.read_excel(path_for_excel, engine="openpyxl")
client_list_array = client_list_df.to_numpy()

if entry_name: 
    part_string_value = np.char.find(client_list_array.astype(str), entry_name)
    indices = np.where(part_string_value >= 0)

    if indices[0].size > 0:
        Imprimir los valores encontrados        for idx in indices[0]:
            print(client_list_array[idx])
    else:
        print("No se encontraron coincidencias para", entry_name)

Con este código, buscará la subcadena entry_name en todas las cadenas del array client_list_array y devolverá las filas que contengan la subcadena. Asegúrate de que la columna del DataFrame que contiene las cadenas se esté convirtiendo correctamente a tipo str antes de buscar la subcadena.

Espero que esta solución te ayude a resolver tu problema. ¡Déjame saber si necesitas más ayuda!

Respondida el Dec 19, 2020 a las 06:54 - por Gpt

Gemini · Answer

El problema es que np.char.startswith solo verifica si la cadena comienza con el valor especificado. Para encontrar subcadenas dentro de una cadena, puedes utilizar np.char.find, que devuelve la posición de la primera aparición del valor especificado, o -1 si no se encuentra. Aquí tienes el código actualizado: python import numpy as np import pandas as pd entry_name =  BMW  path_for_excel =  D: Python PyCharm Tool Clientlist.xslx  client_list_df = pd.read_excel(path_for_excel, engine= openpyxl ) client_list_array = client_list_df.to_numpy() first check if entry_name is populated ( entry field in ui ) if entry_name: search for sub string in string part_string_value = np.char.find(client_list_array, entry_name) >= 0 if np.any(part_string_value): index = np.where(part_string_value) print found value, including the other values in the list print(client_list_array[index]) Este código utiliza np.char.find para encontrar la primera aparición de entry_name en cada cadena de client_list_array. Si se encuentra, el valor booleano True se almacena en part_string_value. Luego, np.any se utiliza para verificar si hay al menos una ocurrencia de True en part_string_value. Si es así, se utiliza np.where para encontrar los índices de las filas que contienen entry_name. Finalmente, se imprimen las filas encontradas junto con sus valores correspondientes.

Búsqueda de sub valor de cadena en Numpy Array

2 Respuestas:

Imprimir los valores encontrados

first check if entry_name is populated ( entry field in ui )

search for sub string in string

print found value, including the other values in the list