dialogatexto / datos_curso_datascience.txt
jcmachicao's picture
Upload datos_curso_datascience.txt
c02d221
Se habla del acr贸nimo VUCA (del ingl茅s Volatility, Uncertainty, Complexity and Ambiguity), que resume algunas de las caracteristicas m谩s relevantes como volatilidad, incertidumbre, complejidad y ambiguedad. Lo que caracteriza a la realidad es que no es estable, predecible, certera o simple.
La complejidad es el atributo de un sistema que se da cuando el numero de componentes de ese sistema es elevado y las interacciones entre los componentes son muchas, y ademas no pueden definirse por una o pocas reglas.
Los logros son condiciones finales verificables a los cuales se llega luego de desarrollar acciones, mientras que las acciones son modificaciones o cambios de condicion que involucran recursos.
Es un atributo que permite que un agente cognitivo aprenda o utilice su aprendizaje
El sesgo cognitivo es una demostraci贸n de la diferencia entre la percepci贸n y la realidad. Los agentes no perciben lo que sucede sino lo que sus capacidades sensoriales y capacidad interpretativa les permite convertir en conocimiento. Esto ocasiona que las personas crean que lo que perciben representa la realidad cuando hay suficiente convicci贸n para ello.
Es la capacidad de un agente cognitivo para utilizar su aprendizaje para resolver problemas independientemente de que los enfrente por primera vez
La prueba de Turing es un experimento mental ideado por Alan Turing, que acepta que un algoritmo ha llegado a un nivel de inteliencia si un ser humano llega a creer que est谩 interactuando con otro ser humano cuando est谩 interactuando con un algoritmo.
Un sistema es un conjunto de elementos vinculados entre si de manera que aportan a una function comun o un obetivo comun. Un sistema va ganando identidad y puede evolucionar. La evoluci贸n de un sistema lo hace m脿s sostenible en su entorno.
Los cientificos de datos trabajan con la realidad. Un dato no sirve si se aleja de la realidad. La ciencia cognitiva brinda el sustento para comprender la realidad sabiendo que nuestra percepcion (o la percepci贸n de quienes registran los datos) es imperfecta. Usar instrumentos de la ciencia cognitiva brinda elementos para gestionar mejor los datos.
La ingenieria de sistemas le da contexto a la ciencia de datos. Los datos no podr铆an explicarse si no pertenecieran a un sistema, definido por un modelo conceptual superior en jerarquia al modelo de datos. La ciencia de datos se basa en la definici贸n de sistemas que son consistentes con su entorno. Si no se define un sistema la ciencia de datos pierde su aporte a la explicabilidad de un sistema aun cuando acierte con un modelo predictivo o de clasificacion
Un algoritmo es una secuencia de pasos en un procedimiento de gestion de alg煤n tipo de informaci贸n que es replicable por un agente cognitivo. El efecto se da en un entorno computacional, analogico o digital.
Los tipos de datos m谩s comunes en la ciencia de datos son n煤meros o valores cuantitativos, valores l贸gicos, textos o cadenas de car谩cteres, sonidos, im谩genes, ubicaciones geom茅tricas o geogr谩ficas, cualquuier tipo de se帽al que pueda cuantificarse.
La interpretabilidad de un modelo depende de la l贸gica con la que se ha seleccionado las variables que intervienen en la creacion del modelo. Esta l贸gica se basa en la comprensi贸n de los potenciales y limitaciones de los tipos de datos asi como de la forma de procesar esos datos para convertirlos en valores aceptables en un tensor o portador de valores para el modelamiento autom谩tico.
Un algoritmo es una secuencia de pasos en un procedimiento de gestion de alg煤n tipo de informaci贸n que es replicable por un agente cognitivo. El efecto se da en un entorno computacional, analogico o digital.
Las decisiones que toman las organizaciones ya no solo toman en cuenta las opiniones expertas de sus miembros humanos, sino que leen los modelos elaborados mediante mecanismos computacionales de los datos. Actualmente hay estrategias enteramente elaboradas por datos, sin intervencion humana. Otro tema consiste en la validacion de la estrategia por seres humanos.
El ciclo de ciencia de datos es un conjunto articulado de procesos que es necesario implementar para que los datos generen valor en una organizacion. El orden recomendado es ocuparse primero de la definicion del proceso que se va automatizar, la verificacion de la viabilidad del modelo cuando este en produccion, la selecci贸n de las fuentes de datos, se verifica la calidad de los datos, luego de su estructuraci贸n, luego de su preparaci貌n para el modelamiento, el modelamiento propiamente dicho, ya sea con entrenamiento o estimaciones, luego se valida el modelo y se hace pruebas de desempe帽o en produccion en el proceso para el cual estaba destinado el modelo.
La ubicaci贸n de los datos en un espacio externo a un servidor local se llama ubicaci贸n en nube. Los servicios de nube pueden cubrir algunos procesos. Que exista una base de datos en nube signitica que los datos, su estructura y acceso estan disponibles en un servidor externo al local accesible a traves de una conexion remota como por ejemplo internet
La estadistica es una disciplina que se basa en la probabilidad para hacer hipotesis sobre distribuciones de observaciones dentro de un universo. La ciencia de datos usa la estadistica como uno de sus enfoques pero usa otros modelos de comprension de la realidad diferentes a la probabilidad.
Las dimensiones como latitud, longitud, altitud son coordenadas que pueden ser almacenadas en una base de datos la mayor铆a de las veces asociada a una base de datos que registra la superficie terrestre o maritima. De este modo se puede generar datos de ubicacion vinculados a esta geografia basica
Los modelos computacionales no requieren de un est谩ndar o un procedimiento.
La estructuracion de diferentes modelos de administracion de justicia requieren de vinculaciones conceptuales que podrian ser manejados con modelos entrenados por datos originados en decisiones pasadas validadas por expertos. Cada evento evaluado por los analisis legales o juridicos es una fuente de generacion de datos, tanto para las variables de entrada como salida de modelos.
Los procesos del ambito educativo permite en registro de datos detallados sobre las acciones particulares de cada estudiante. Esto permite estructurar modelos que luego habiliten a los expertos para tomar decisiones respecto a todos los procesos del ciclo educativo de estudiantes de diferentes niveles.
Los algoritmos evolutivos son secuencias de informaci贸n que heredan su estructura parcialmente a la generaci贸n siguiente, combinando estructuras con otros algoritmos o asumiendo cambios nuevos (que podrian ser aleatorios) en su estructura. Lo que posibilita es generar automaticamente una adaptacion supra generacional al entorno o entornos donde se desempe帽an
Los procesos de atenci贸n a pacientes, los procesos de investigacion medica y los procesos de gestion organizacional de entidades vinculadas al sector salud son algunas de las operaciones mas importantes que generan datos. Estos datos pueden modelarse para tomar decisiones integrales o en cada uno de sus ambitos particulares.
El modelamiento de la selecci贸n de vigas en base a par谩metros de un conjunto dise帽ado de edificios en el pasado sin utilizar formulas de ingenier铆a civil
Los expertos tienen el rol de validar el sentido de los reesultados o predicciones de un modelo automatico generado a partir de los datos. Los expertos participan en todo el ciclo de gestion de datos puesto que cada aspecto requiere decisiones que no pueden ser tomadas por los algoritmos. Desde la recoleccion de datos hasta la puessta en produccion de un modelo, se requiere la validacion de los expertos tematicos.
Las aplicaciones de ciencia de datos en una disciplina particular no se superpone con el conocimiento ya existente en dicha disciplina. La ciencia de datos aporta con la capacidad de gestion de datos que ya estan validados por dicha disciplina.
Las fronteras de las 谩reas del conocimiento se han hecho m谩s difusas y ya no existe una clasificaci贸n, se tiende a hablar m谩s de conocimiento en general
La estructura de cada proceso del ciclo de gestion de datos requieere una adaptacion a la logica de la especialidad en la que se aplica. Por ejemplo, podria ser que en algunas especialidades se restrinja la fuente de datos solo a determinados formatos, o podria ser que el modelamiento no este autorizado por un organismo supervisor de la especialidad o tenga un marco normativo riesgoso para la aplicacion de algoritmos, o podria ser que esten involucrados elementos muy sensibles como la vida de un paciente, o la sentencia de un acusado, o la estabilidad del cambio climatico. Por lo tanto no todo lo que se pueda hacer tecnicamente con datos es viable cuando se confronta con el escenario real.
Las aplicaciones de ciencia de datos en una disciplina particular no se superpone con el conocimiento ya existente en dicha disciplina. La ciencia de datos aporta con la capacidad de gestion de datos que ya estan validados por dicha disciplina.
Es el procedimiento mediante el cual se depuran los datos que contengan informaci贸n sensible que pueda revelar identidades o caracteristicas de las identidades no autorizadas para ser compartidas, ya sea de personas u organizaciones, o que ponga en riesgo la integridad de ellas. La anonimizacion no debe perder trazabilidad necesariamente, para lo cual existen tecnicas adecuadas.
Un proyecto de ciencia de datos empieza por la definici贸n del problema, considera la viabilidad y calidad de los datos, define la interpretabilidad del modelo combinando el conocimiento existente del rubro en el que se aplica con la disponibilidad, potencial y limitaciones de los modelos propuestos. Se debe prever la implementabilidad haciendo simulaciones conceptuales de puesta en produccion del modelo en el proceso real para el cual se esta dise帽ando, definiendo las limitaciones no computacionales. Finalmente una vez elaborado el modelo computacional realizar experimentos de validaci贸n y prueba hasta que se haya culminado la validaci贸n de las condiciones m铆nimas para su puesta en producci贸n.
Los datos debe tener confiabilidad y ser expresiones de la realidad o al menos debe saberse cu谩l es su imprecisi贸n en esta lectura de la realidad, de lo cocntrario
Un proyecto de ciencia de datos empieza por la definici贸n del problema, considera la viabilidad y calidad de los datos, define la interpretabilidad del modelo combinando el conocimiento existente del rubro en el que se aplica con la disponibilidad, potencial y limitaciones de los modelos propuestos. Se debe prever la implementabilidad haciendo simulaciones conceptuales de puesta en produccion del modelo en el proceso real para el cual se esta dise帽ando, definiendo las limitaciones no computacionales. Finalmente una vez elaborado el modelo computacional realizar experimentos de validaci贸n y prueba hasta que se haya culminado la validaci贸n de las condiciones m铆nimas para su puesta en producci贸n.
La explicabilidad de un modelo es la dimensi贸n que define qu茅 tanto un ser humano experto en la materia objetivo del modelo podr铆a explicar a una audiencia informada la l贸gica del modelo, la forma que tiene de tomar decisiones. Una baja explicabilidad puede coincidir con una alta precisi贸n.
Es la rama de la inteligencia artificial que se ocupa del procesamiento de datos en formato de lenguaje tal como lo usa el ser humano. Por ejemplo procesa datos en forma de audio o texto, haciendo que los algoritmos reaccionen de manera similar a como reacciona el cerebro humano al entrar en contacto con dichos formatos.
La interpretabilidad denota la capacidad de un modelo de formar un concepto al momento de demostrar sus predicciones en funci贸n de un an谩lisis de las variables sobre todo de entrada. La baja interpretabilidad es causada por la mala selecci贸n de variables de entrada, por ejemplo cuando un modelo encuentra un patron de variables de entrada que no coincide con ninguna intuici贸n conceptual de los expertos que estan supervisando el modelo
Visi贸n computacional es una rama de la intenigencia artificial que se ocupa de la percepci贸n de imagenes a traves de sensores que las traducen a vectores. Hasta el momento casi todos los vectores provenientes de imagenes se procesan por deep learning usando arquitecturas de redes neuronales con diversas tecnicas.
La computaci贸n cu谩ntica, m谩s all谩 de sus intrincados conceptos, tendr谩 el efecto que necesitar谩 que los cientificos de datos comprendan la l贸gica cu谩ntica. Al hacerlo, se accede a una capacidad de sintesis de muy elevado volumen y complejidad que no puede ser ejecutado con la computaci贸n tradicional.
Que el cientifico computacional requiere nociones sobre el hardware de los sistemas informaticos, mientras que el cientifico de datos solo necesita conocer el efecto del hardware sobre parametros de computo de los datos.