De câte ori un cuvânt apare în BigQuery coloana

0

Problema

Am o coloana cu lungi siruri de caractere și trebuie să conta cele mai utilizate cuvinte în ea.

Am nevoie de ceva care funcționează astfel de prognoze https://towardsdatascience.com/very-simple-python-script-for-extracting-most-common-words-from-a-story-1e3570d0b9d0. Cuvântul de numărare parte cel puțin...

Și este foarte important că am opțiunea de a lista neagră unele cuvinte astfel încât acestea nu conta.

google-bigquery
2021-11-23 18:33:36
1

Cel mai bun răspuns

2

Încercați mai simplă abordare

with blacklist as (
  select 'with' word union all 
  select 'that' union all
  select 'add more as you see needed'
)
select lower(word) word, count(*) frequency
from data, unnest(regexp_extract_all(col, r'[\w]*')) word
where length(word) > 3  
and word not in (select word from blacklist)
group by word
order by frequency desc     

 
2021-11-23 22:40:30

aceasta nu a functionat... frazele sunt în portugheză, ar putea fi aceasta problema? sau poate n-am face dreapta substituion privind codul idk
Murilo

), neagră ca ( selectați " cu "cuvântul union all select", că "uniunea tuturor selectați adăugare mai multe ca vezi tu nevoie' ) selectați inferior(cuvântul), cuvantul, count() frecvență de T0, unnest(regexp_extract_all(T0.coloana, r[\w]')) cuvânt în cazul în care lungimea(word) > 3 și cuvântul nu în (selectați cuvântul din listă neagră) grup de ordinea cuvintelor de frecvență desc ///am incercat asta..
Murilo

te rog sa fii mai specific - ce vrei să spui prin "nu merge"? oferi exemplu de date de intrare. etc....
Mikhail Berlyant

greseala mea, am primit acest mesaj "Această interogare nu a intors niciun rezultat".
Murilo

nu conteaza, am avut o greseala original interogare, functioneaza perfect acum, vă mulțumesc foarte mult
Murilo

Mulțumesc pentru confirmare. Mă bucur că funcționează pentru tine. Ia în considerare, de asemenea, de a vota răspunsul dacă acesta a ajutat :o)
Mikhail Berlyant

btw, ma uit la rezultate si codul este de tăiere de cuvinte care conțin un "brazilian litere" ca "Ç" "ã" "ä", există o modalitate de a face să ia în considerare acele. Într-un cuvânt ca "informacao", contează ca "informa"
Murilo

sigur greu de realizat, va verifica la scurt timp. dar între timp mi verific în alte răspunsuri cum de a trata accente, etc. Acesta ar trebui să fie de cel puțin câteva răspunsuri legate de :o)
Mikhail Berlyant

În alte limbi

Această pagină este în alte limbi

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................