Pregunta | Respuesta |
que es la ingeniería de datos | campo que se encarga del desarrollo, prueba, implementacion y mantenimiento de las soluciones de procesamiento de datos |
actividades principales en la ingeniería de datos | almacenamiento y procesamiento de datos |
caracteristicas y desafios de la ingenieria de big data | * volumen * velocidad * variedad * importacion y exportacion de grandes cantidades de datos desde y hacia tecnologias de almacenamiento tradicionales * validacion y limpieza de datos por lotes y en tiempo real * establecimiento de un entorno optimo de procesamiento y almacenamiento de datos * desarrollo de algoritmos eficientes de procesamiento de datos *desarrollo de big data pipelines y aplicaciones big data |
pregunta de examen. Para la partición de los datos, los patrones de la consulta deben ser tomados en cuenta, de tal forma que los shards no | no se conviertan en cuellos de botella en términos de rendimiento. |
La ubicación de los datos, o conservar los datos a los que frecuentemente se tiene acceso en un solo shard, ayuda a | contrarrestar problemas de rendimiento de cuellos de botella |
que es el sharding | proceso de particionar horizontalmente un gran data set en un grupo de datasets mas pequeños y manejables llamados shards. |
Los shards están distribuidos entre distintos nodos, en donde un nodo es un | servidor o computadora |
Cada shard es almacenado en un nodo aparte y cada nodo solamente es responsable por | los datos que almacena |
Cada shard comparte el mismo ___ , y todos las shards representan colectivamente la | esquema, base de datos compelta |
que se hace en el sharding para lograr la escalabilidad horizontal | se distribuye la carga de procesamiento entre distintos nodos |
un beneficio del sharding es que | brinda tolerancia parcial a errores |
en que principio se basa el algoritmo map reduce | se basa en el principio de dividir un problema difícil en tantas partes sea posible |
que enfoques se usan para lograr el principio de divide y veneras de el algoritmo map reduce | 1. paralelismo de tareas 2. paralelismo de datos |
de que se trata el paralelismo de tareas | consiste en la paralelizacion de el procesamiento de datos dividiendo una tarea en subtareas |
cada subtarea en el paralelismo de tareas se ejecuta en.. | procesadores diferentes |
el paralelismo de datos consiste en | consiste en la paralelizacion del procesamiento de datos dividiendo un dataset en subdatasets |
en el paralelismo de datos los subdatasets se procesan ___ | en paralelo |
Cada subtarea ejecuta un algoritmo ___ y cada subdataset es procesado usando el ___ algoritmo | diferente, mismo |
cuales son las operaciones de map reduce | funcion maping funcion reduce |
las firmas de las funciones map y reduce se limitan a un conjunto de | pares llave - valor |
el conjunto de pares llave y valor es la unica forma de comunicar el mapeo con el __ | reduce |
de que depende la lógica de la función de mapeo | depende de la forma en que se analizan los registros |
de que depende la lógica de la función reduce | depende del resultado de la funcion de mapeo |
consideraciones para desarrollar un algoritmo map reduce | 1. Lógica algorítmica relativamente simple 2. Disponibilidad del dataset de forma distribuida particionada a traves del cluster 3. Comprension de la estructura de los datos dentro del dataset (para elegir un unico registro que sera la calve) 4. Dividir la logica algoritmica en funciones de mapeo y reduce 5. emtir la llave correcta a partir de la funcion de mapeo 6. emitir la llave correcta a partir de la funcion reduce |
inconsistencias de escritura que ocurren en replicacion pear to pear pueden ser enfrentadas implementando concurrencia ___ o ___ | OPTIMISTA O PESIMISTA |
identifique el requerimiento del motor de procesamiento que permite procesar grandes cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al recurso de computacion. | procesamiento distribuido |
QUE MECANISMO NO SQL AGRUPA COLUMNAS RELACIONADAS EN UNA FILA | COLUMNAR |
LA LOGICA DE LA FUNCION REDUCE ES DEPENDIENTE DE LA FUNCION __ | MAPING |
El framework de map reduce se basa en el principio de | dividir un problema dificil en tantas veces sea necesario |
El ____ y el ____ son los dos enfoques usados generalmente para el principio de dividir un problema dificil en tantas partes sea necesario | paralelismo de tareas paralelismo de datos |
El ____ se refiere a la paralelizacion del procesamiento de datos al dividir una tarea en subtareas y ejecutar cada subtarea en un procesador por separado, generalmente en un nodo separado dentro del cluster | paralelismo de tareas |
el ___ se refiere a la paralelizacion de procesamiento de datos al dividir un dataset en varios subdatasets y procesar estos en paralelo | paralelismo de datos |
el framework de map reduce aborda la necesidad de una ejecución repetida de la misma tarea en datos distribuidos al usar el enfoque | paralelismo de datos |
En map reduce la lógica en la función reduce depende del resultado de la función | mapeo |
el framework de map reduce requiere que el dataset sea ___ a traves del cluster para que multiples funciones ___________ puedan procesar los subdatasets en paralelo | particionado, mapeo |
con el algoritmo map reduce, la lógica en la función de mapeo no debe depender del dataset completo, pues solo se dispone de los datos dentro de una ___ | sola division |
Map reduce es una implementacion muy utilizada por el mecanismo de motor de ____ | procesamiento por lotes |
Map reduce es un motor de procesamiento enfocado en el modo por ___ que se usa para procesar grandes cantidades de datos por medio del procesamiento en ___ implementado en clusters de ____ | lotes, paralelo, hadware basico |
Map reduce requiere que los datos de entrada hagan parte de un modelo de datos en particular? | Falso |
Que sucede cuando se aplica el paradigma de procesamiento distribuido tradicional a grandes cantidades de datos | Tradicionalmente se pasan los datos del nodo de almacenamiento al nodo de procesamiento para datasets pequenos, pero al usar grandes datasets mover los datos implica una sobrecarga |
Con map reduce es el algoritmo de procesamiento el que se transfiere hacia ___ | los nodos que almacenan los datos |
El algoritmo es ejecutado en paralelo en los nodos de almacenamiento de datos eliminando la necesidad de transferir ____ | primero los datos |
Cuales son las tareas de mapeo | Mapear, combinar (opcional), dividir |
Cuales son las tareas de reduce | * Mezclar y clasificar *Reducir |
Que hace la primera parte de la tarea del algoritmo map reduce: mapear? | el archivo del data set se divide en partes mas pequeñas, |
Al dividir el dataset cada parte se analiza como un par ___ ___ | llave valor |
la llave generalmente es la ___ ordinal del registro | posicion |
segunda parte de la funcion mapear | los pares clave valor se llevan a una funcion de mapeo o mapeador |
la funcion de mapeo funciona como logica definida por el usuario? | verdadero |
la tercera parte de la función mapear es | una vez procesado cada registro llave valor según la función de mapeo se genera un resultado también en forma de clave valor |
en el mapeo la llave y valor de salida no puede ser la misma que la llave de entrada ni un valor de subcadena del valor de entrada ni otro objeto serializable? | Falso |
generalmente las tareas de mapeo y reduce se ejecutan en ____ nodos | distintos |
que función se usa para agregar los datos resultado del mapeo antes de que sean procesados por el reductor? | funcion combinador |
en la etapa de combinacion existen llaves duplicadas? | no porque se realiza una agregacion de la llave por valor. |
por que el motor de map reduce puede no usar la etapa de combinacion? | porque la etapa de combinacion es solo una etapa de mejora |
un combinador debe ser especificado unicamente cuando su uso no afecte el __ __ | resultado neto |
que se hace en la etapa dividir | si hay mas de un reductor involucrado, un particionador divide el resultado del mapeador en particiones entre las distintas instancias de los reductores |
en la etapa dividir, el numero de particiones es igual al numero de ____ | reductores |
como solventar que algunos reductores reciban una mayor cantidad de pares que otros? | personalizando la logica del la division garantizando una distribucion equitativa de los pares llave valor |
en que etapa se genera el indice del reductor? | en la etapa de division de la funcion mapeo |
las bases de datos no sql son compatibles con la evolucion __ | del esquema |
Únicamente se pueden buscar los valores por medio de las llaves, | dispositivo de almacenamiento llave valor |
Es necesario almacenar datos sin estructurar | dispositivo de almacenamiento llave valor |
DATOS SEMIESTRUCTURADOS, ESQUEMAS PLANOS O ANIDADOS | dispositivo de almacenamiento documento |
ESCRITURA/LECTURA ALEATORIA EN TIEMPO REAL | dispositivo de almacenamiento columnar |
almacenamiento de links entre entidades | grafo |
como se le llama a la entidad en grafos | vertice |
como se le llama al link en grafos | borde |
operaciones de lectura o escritura de alto rendimiento | dispositivo de almacenamiento llave valor |
dispositivo de almacenamiento que se basa en ACID | GRAFOS |
Para datos binarios y de estructura sencilla | llave valor |
PATRONES CONSULTA DE INSERCION, SELECCION Y ELIMINACION | llave valor |
PATRONES CONSULTA DE INSERCION, ACTUALIZACION,SELECCION Y ELIMINACION | documentos, columnar |
Jane necesita almacenar una gran cantidad de archivos del circuito cerrado de televisión. Debido a la baja calidad del video, todos los archivos serán procesados, uno después de otro, utilizando una biblioteca de software de mejoramiento de video. ¿Qué tipo de dispositivo de almacenamiento puede utilizar Jane para garantizar la máxima capacidad de procesamiento de lectura y un procesamiento rápido de los archivos de video? | sistema de archivos distribuido |
Kerry está diseñando una aplicación de Big Data que debe almacenar grandes cantidades de archivos XML. Cada archivo XML representa una entidad aparte, compuesta por múltiples secciones, cada una con subcampos. Se deben recuperar y actualizar distintas secciones del archivo XML como parte del flujo de trabajo (Workflow) de procesamiento. ¿Qué tipo de dispositivo de almacenamiento NoSQL es el más adecuado para los requisitos de almacenamiento de datos de Kerry? | Documento |
Roger planea reemplazar la base de datos relacional con una base de datos NoSQL para almacenar los datos de sesión de los usuarios de una popular tienda online. Las sesiones de los usuarios son identificadas por medio de la ID y de una marca de hora, y almacenan los datos específicos de la aplicación, que son exclusivamente anexados. Los datos de sesión de los usuarios son analizados, lo que requiere que los datos de la sesión de cada uno de los usuarios sean agrupados. ¿Qué tipo de dispositivo de almacenamiento NoSQL puede ser utilizado en este caso? | llave valor |
Mike está a cargo del diseño de una base de datos para almacenar activos físicos que se encuentran distribuidos geográficamente por el país. Cada activo tiene un conjunto básico de atributos, como ID, tipo y fecha de fabricación. Asimismo, cada activo está conectado físicamente con varios otros activos. Mike conoció que la base de datos será usada intensamente por los ingenieros con el fin de hallar activos que están conectados con otros, así como para determinar la distancia entre dos activos. ¿Qué tipo de dispositivo de almacenamiento puede usar Mike para satisfacer los requisitos de consulta de los ingenieros? | grafos |
John está diseñando una aplicación web que almacena distintas piezas de información relacionadas con cada cliente, como la información personal del cliente (incluyendo dirección e información de tarjeta de crédito), el historial de compras del cliente y comentarios publicados en la página web para diferentes productos. John quiere ser capaz de buscar clientes usando sus nombres para poder actualizar los registros de los clientes. Igualmente, él espera que se ejecuten varios tipos de análisis de los clientes. Uno de los análisis que determina los sentimientos de los clientes requiere acceso interactivo a texto en los comentarios, además de buscar los comentarios hechos por cada cliente. ¿Qué tipo de base de datos NoSQL puede utilizar John para facilitar el acceso a cada campo y permitir que los datos de los comentarios sean recuperados rápidamente? | columnar |
Los _____ son una buena opción cuando se debe acceder a los datos en modo de streaming sin operaciones aleatorias de lectura ni escritura | sistemas de archivos distribuidos |
los ____funcionan mejor con menos archivos, pero de mayor tamaño, a los cuales se accede de forma secuencial | sistemas de archivos distribuidos |
caracteristicas del motor de procesamiento big data | 1 procesamiento de datos distribuido/paralelo 2 procesamiento de datos sin esquema 3 soporte para multiples cargas de trabajo 4 escalabikidad llineal 5redundancia y tolerancia a fallos 6bajo costo |
Dar soporte a un entorno de procesamiento distribuido con capacidades de procesamiento paralelo requiere un motor de procesamiento que pueda ofrecer un rendimiento estable mientras el volumen de datos crece. | ESCALABILIDAD LINEAL |
Implementar un software de código abierto en un hardware básico ayuda a | reducir costos |
que caracteristica de procesamiento apoya la capacidad del motor de procesamiento para aprovechar el Cloud Computing. | bajo costo |
que caracteristica de procesamiento : , es necesario que la plataforma de procesamiento subyacente sea compatible tanto con las cargas de trabajo transaccionales como con las de lote. | soporte para multiples cargas de trabajo |
los datos de big data se presentan de dos formas: | gruesos (caracteristica de volumen) rapidos (caracteristica de velocidad) |
caracteristica de procesamiento: es necesario utilizar un modelo de procesamiento basado en el principio de dividir un problema difícil en tantas partes como sea necesario, al igual que sucede con el procesamiento de datos paralelos. | Procesamiento de datos distribuidos/paralelos |
que caracteristica del motor de procesamiento fomenta el uso de software de codigo abierto y cloud computing | bajo costo |
la replicacion crea multiples copias de un dataset, conocidas como ____ y las almacena en varios nodos | replicas |
que caracteristica del motor de procesamiento permite el procesamiento de datos tanto por lotes como en tiempo real | soporte para multiples cargas de trabajo |
que caracteristica de motor de porcesamiento permite que haya funcionalidad cuando se presentan fallas en el sistema | redundancia y tolerancia a fallos |
el teorema cap establece que un sistema de archivos distribuido solo puede proporcionar dos de las tres propiedades, que son | consistencia disponibilidad tolerancia al particionado |
___ es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets mas pequenos y manejables llamados ___ distribuidos entre multiples nodos | sharding, shards |
que caracteristica del motor de procesamiento permite el procesamiento de grandes cantidades de datos en la fuente sin necesidad de transferirlos desde su lugar de almacenamiento hasta un recurso de informatica? | procesamiento de datos distribuido/paralelo |
el ___ de map reduce aborada la necesidad de una ejecucion repetida de la misma tarea en datos distribuidos al usar un enfoque de paralelismo de datos | framework |
en la replicacion ___, el nodo maestro es el unico punto de contacto para todas las operaciones de escritura, mientras que los datos pueden ser leidos desde cualquier nodo esclavo | maestro esclavo |
que significa BASE | DISPONIBILIDAD TODO EL TIEMPO ESTADO FLEXIBLE CONSISTENCIA A LARGO PLAZO |
en la replicacion peer to peer no hay nodos maestro ni esclavo y todos los nodos llamados __, operan al mismo nivel | peers |
en el contexto de teorema CAP las bases de datos relacionales proporcionan ___ y ____ | consistencia, disponibilidad |
que caracteristica del motor de procesamiento da soporte a los modelos de datos cambiantes y permite el procesamiento de datos en su forma original sin la necesidad de llevar a cabo ninguna transformacion en el modelo de datos | procesamiento de datos sin esquema |
que modo de porcesamiento en tiempo reral es: se ubica dentro de la categoría de tiempo real. El ___ generalmente se refiere al procesamiento de consultas en tiempo real. La Inteligencia de negocios (BI) y la analítica operativa generalmente hacen uso del modo en tiempo real. | modo interactivo |
el procesamiento en big data requiere un entorno ___ qyue sea capaz de procesar datos en ___, lo caul es una caracteristica soportada por la arquitectura en ____ | distribuido, paralelo, cluster |
Los clusters permiten el procesamiento de datos ____ y son altamente ___ | distribuidos, escalables |
En la arquitectura en cluster, los datasets de Big Data pueden ser procesados por ___ o ___ usando un motor de procesamiento por lotes | lotes o en real time |
falso o verdadero ? A fin de que los datos almacenados tengan una estructura, la mayoría de dispositivos de almacenamiento de tipo llave-valor (key-value) ofrecen colecciones o sectores de almacenamiento (buckets; por ejemplo, tablas) dentro de los cuales se pueden organizar las parejas de llave-valor (key-value), | verdadero |
¿Quieres crear tus propias Fichas gratiscon GoConqr? Más información.