Paquete R para hacer consultas a la base de dlm.
Wrapper sobre mongolite para simplificar las consultas.
Instalación vía consola de RStudio
- Instalar
devtools:
> install.packages("devtools")
- Instalar
dlmr:
> devtools::install_github("miglesias91/dlmr")
ACLARACIÓN: Para hacer consultas a la base de datos de dicenlosmedios, hace falta tener usuario, contraseña e ip del servidor.
Antes que nada hay que conectarse a la base de datos:
> conectar(usuario = 'un_usuario', password = 'una_password', servidor = 'una_ip')
Este método se llama una sola vez por sesión (cada vez que se abre RStudio).
Trae las noticas según los filtros.
> notis = noticias(desde,
hasta,
diarios = c(),
categorias = c(),
palabras_en_titulo = c(),
palabras_en_texto = c())
- desde: "desde qué fecha buscar?" fecha desde la cual se quiere recuperar las frecuencias, en formato 'YYYYMMDD'.
- hasta: "hasta qué fecha buscar?" fecha hasta la cual se quiere recuperar las frecuencias, en formato 'YYYYMMDD'.
- diarios: "en qué diarios buscar?" lista de los darios a buscar las palabras.
- categorias: "en qué categorias buscar?" lista de las categorias a buscar las palabras.
- palabras_en_titulo: "cuáles deben aparecer en el título?" Pueden ser también pedazos de palabras. Matchea si aparecen TODAS las palabras.
- palabras_en_texto: "cuáles deben aparecer en el texto?" Pueden ser también pedazos de palabras. Matchea si aparecen TODAS las palabras.
Cuenta las noticas que coinciden con los filtros.
> total = contar(desde,
hasta,
diarios = c(),
categorias = c(),
palabras_en_titulo = c(),
palabras_en_texto = c())
Devuelve el número de noticias que coinciden con filtros. Los parámetros son los mismos que en dlmr::noticias().
Consulta las veces que se mencióno -'frecuencia'- una palabra en una determinada fecha, para los diarios y categorias indicadas.
> freqs = frecuencia(que,
donde,
palabras,
desde = '18100525',
hasta = '20220101',
diarios = c(),
categorias = c(),
freq_min = 0,
freq_max = 99999)
- que: "qué tipo de palabras buscar?" este paramétros puede ser 'personas', 'terminos' o 'verbos'.
- donde: "dónde buscar las palabras?" este paramétros puede ser 'titulos' o 'textos'.
- palabras: "cuáles palabras buscar?" acá van las palabras que se quieren buscar. Apellido de una persona, o término, o verbo en infinitivo.
- desde: "desde qué fecha buscar?" fecha desde la cual se quiere recuperar las frecuencias, en formato 'YYYYMMDD'.
- hasta: "hasta qué fecha buscar?" fecha hasta la cual se quiere recuperar las frecuencias, en formato 'YYYYMMDD'.
- diarios: "en qué diarios buscar?" lista de los darios a buscar las palabras.
- categorias: "en qué categorias buscar?" lista de las categorias a buscar las palabras.
- freq_min: "cuántas veces COMO MÍNIMO tiene que aparecer cada palabra?"
- freq_max: "cuántas veces COMO MÁXIMO tiene que aparecer cada palabra?"
Consulta el top N de frecuencias en una determinada fecha, filtrando por diarios y categorias.
> tends = tendencias(que,
donde,
fecha,
diarios = c(),
categorias = c(),
top = 10)
- que: "qué tipo de palabras buscar?" este paramétros puede ser 'personas', 'terminos' o 'verbos'.
- donde: "dónde buscar las palabras?" este paramétros puede ser 'titulos' o 'textos'.
- fecha: "qué fecha buscar?" fecha en la cual se quiere recuperar las tendencias, en formato 'YYYYMMDD'.
- diarios: "en qué diarios buscar?" lista de los darios a buscar las palabras.
- categorias: "en qué categorias buscar?" lista de las categorias a buscar las palabras.
- Todas las consultas devuelve un
data.frameen formatodata.table - Para buscar palabras escribirlas tal como son: usar mayúsculas, minúsculas y tildes. ('reactivación' no es lo mismo que 'reactivacion', USAR TILDES)
- En las consulta
noticias(), podemos buscar pedazos de palabras:"palabras que empiecen con
corrup" -> noticias(..., palabras_en_texto = c('corrup'))
"recuperar las noticias entre
2020-10-01y2020-10-30, de los dariosClarinyLa Nacion, de las categoríasEconomíayPolítica, que aparezca en el título'Crisis', y en el texto'conflicto','reactivación'y'corrup'"
> n = noticias(desde = '20201001',
hasta = '20201030',
diarios = c('clarin', 'lanacion'),
categorias = c('economia', 'politica'),
palabras_en_titulo = c('Crisis'),
palabras_en_texto = c('conflicto','reactivación','corrup'))
"recuperar la frecuencia de la
persona'Cristina'entexto, entre2020-09-10y2020-09-12, de los dariosInfobaeyPágina 12, de las categoríasInternacionalyDeporte"
> f = frecuencias(que = 'personas',
donde = 'textos',
desde = '20200910',
hasta = '20200912',
diarios = c('clarin', 'lanacion'),
categorias = c('economia', 'politica'),
palabras = c('Cristina'))
"recuperar las tendencia de los primeros
20términosen lostítulosde la categoríasociedad, del diarioClarin, de la fecha2021-01-16"
> t = tendencias(que = 'terminos',
donde = 'titulos',
fecha = '20210116',
diarios = c('clarin'),
categorias = c('sociedad'),
top = 20)